Semalt: come bloccare Darodar Robots.txt

Il file Robots.txt è un tipico file di testo che contiene istruzioni su come i crawler web o i bot devono eseguire la scansione di un sito. La loro applicazione è evidente nei robot dei motori di ricerca che sono comuni in numerosi siti Web ottimizzati. Come parte del Robots Exclusion Protocol (REP), il file robots.txt costituisce un aspetto essenziale dell'indicizzazione del contenuto del sito Web e consente a un server di autenticare le richieste degli utenti di conseguenza.

Julia Vashneva, la responsabile del successo dei clienti senior di Semalt , spiega che il collegamento è un aspetto dell'ottimizzazione dei motori di ricerca (SEO), che comporta l'acquisizione di traffico da altri domini all'interno della tua nicchia. Affinché i collegamenti "segui" per trasferire il collegamento dei collegamenti, è essenziale includere un file robots.txt nello spazio di hosting del sito Web per fungere da istruttore su come il server interagisce con il sito. Da questo archivio, le istruzioni sono presenti consentendo o vietando il comportamento di alcuni specifici user agent.

Il formato di base di un file robots.txt

Un file robots.txt contiene due righe essenziali:

User-agent: [nome user-agent]

Non consentire: [stringa URL da non sottoporre a scansione]

Un file robots.txt completo dovrebbe contenere queste due righe. Tuttavia, alcuni di essi possono contenere più righe di user-agent e direttive. Questi comandi possono contenere aspetti come consente, non consente o ritardi nella scansione. Di solito c'è un'interruzione di linea che separa ogni serie di istruzioni. Ognuna delle istruzioni di consenso o di rifiuto è separata da questa interruzione di riga, specialmente per il file robots.txt con più righe.

Esempi

Ad esempio, un file robots.txt potrebbe contenere codici come:

Agente utente: darodar

Non consentire: / plugin

Non consentire: / API

Non consentire: / _comments

In questo caso, si tratta di un file di blocco robots.txt che impedisce al crawler web Darodar di accedere al tuo sito Web. Nella sintassi sopra, il codice blocca aspetti del sito Web come plug-in, API e la sezione commenti. Da questa conoscenza, è possibile ottenere numerosi benefici dall'esecuzione efficace del file di testo di un robot. I file Robots.txt possono essere in grado di eseguire numerose funzioni. Ad esempio, possono essere pronti a:

1. Consentire tutti i contenuti dei crawler Web in una pagina Web. Per esempio;

Agente utente: *

Disallow:

In questo caso, è possibile accedere a tutto il contenuto dell'utente da qualsiasi crawler Web che richiede di accedere a un sito Web.

2. Bloccare un contenuto Web specifico da una cartella specifica. Per esempio;

User-agent: Googlebot

Non consentire: / esempio-sottocartella /

Questa sintassi contenente il nome dell'agente utente Googlebot appartiene a Google. Impedisce al bot di accedere a qualsiasi pagina Web nella stringa www.ourexample.com/example-subfolder/.

3. Bloccare un crawler Web specifico da una pagina Web specifica. Per esempio;

Agente utente: Bingbot

Non consentire: /example-subfolder/blocked-page.html

Il bot Bing dell'agente utente appartiene ai crawler Web di Bing. Questo tipo di file robots.txt impedisce al crawler Web di Bing di accedere a una pagina specifica con la stringa www.ourexample.com/example-subfolder/blocked-page.

Informazioni importanti

  • Non tutti gli utenti utilizzano il tuo file robts.txt. Alcuni utenti potrebbero decidere di ignorarlo. La maggior parte di questi crawler Web include Trojan e malware.
  • Perché un file Robots.txt sia visibile, dovrebbe essere disponibile nella directory del sito Web di livello superiore.
  • I caratteri "robots.txt" fanno distinzione tra maiuscole e minuscole. Di conseguenza, non dovresti modificarli in alcun modo, inclusa la capitalizzazione di alcuni aspetti.
  • "/Robots.txt" è di dominio pubblico. Chiunque può essere in grado di trovare queste informazioni aggiungendole al contenuto di qualsiasi URL. Non devi indicizzare i dettagli o le pagine essenziali per cui desideri che rimangano privati.