Questo protocollo viene utilizzato dagli amministratori di siti Web quando ci sono sezioni o file a cui preferirebbero non essere accessibili dal resto del mondo. Ciò potrebbe includere elenchi di dipendenti o file che stanno circolando internamente. Ad esempio, il sito web della Casa Bianca utilizza robots.txt per bloccare qualsiasi richiesta di intervento del Vicepresidente, un saggio fotografico della First Lady e profili delle vittime del 911.
Come funziona il protocollo? Elenca i file che non dovrebbero essere scansionati e li colloca nella directory di livello superiore del sito Web. Il protocollo robots.txt è stato creato per consenso nel giugno 1994 dai membri della mailing list dei robot ([email protected]). Non esiste un organismo di standard ufficiale o RFC per il protocollo, quindi è difficile legiferare o imporre che il protocollo venga seguito. In effetti, il file viene trattato come strettamente consultivo e non ha la garanzia assoluta che tali contenuti non vengano letti.
Как работать с robots.txt? Просто о сложном
In effetti, robot.txt richiede cooperazione da parte del web spider e persino del lettore, dal momento che tutto ciò che viene caricato su Internet diventa disponibile pubblicamente. Non li stai rinchiudendo da quelle pagine, stai solo rendendo più difficile per loro entrare. Ma ci vuole pochissimo per loro ignorare queste istruzioni. Gli hacker possono anche facilmente penetrare i file e recuperare informazioni. Quindi la regola generale è che se è così sensibile, non dovrebbe essere sul tuo sito web per cominciare.
È necessario, tuttavia, prestare attenzione affinché il protocollo Robots.txt non blocchi i robot del sito web da altre aree del sito Web. Ciò influirà notevolmente sul posizionamento dei motori di ricerca, poiché i crawler si affidano ai robot per contare le parole chiave, rivedere i metatag, i titoli e le traverse e persino registrare i collegamenti ipertestuali.
Un trattino o trattino fuori posto può avere effetti catastrofici. Ad esempio, i modelli robots.txt sono abbinati a semplici confronti di sottostringa, quindi è necessario fare attenzione affinché i modelli che corrispondono alle directory abbiano il carattere finale ';/'; aggiunto: altrimenti tutti i file con nomi che iniziano con quella sottostringa corrisponderanno, piuttosto che solo quelli nella directory previsti.
Per evitare questi problemi, considera la possibilità di inviare il tuo sito a un simulatore di spider per motori di ricerca, chiamato anche simulatore di robot per motori di ricerca. Questi simulatori? Che possono essere acquistati o scaricati da internet? utilizzare gli stessi processi e le stesse strategie di diversi motori di ricerca e darvi una :prova a secco:? di come leggeranno il tuo sito. Ti diranno quali pagine sono saltate, quali link sono ignorati e quali errori si incontrano. Poiché i simulatori reiteranno anche il modo in cui i bot seguiranno i collegamenti ipertestuali, vedrai se il tuo protocollo robot.txt interferisce con la capacità del motore di ricerca di leggere tutte le pagine necessarie.
È anche importante rivedere i tuoi file robot.txt, che ti permetteranno di individuare eventuali problemi e correggerli prima di inviarli ai motori di ricerca reali. How To Robots Txt A volte ci posizioniamo bene su un motore per una particolare frase chiave e presumiamo che a tutti i motori di ricerca piaceranno le nostre pagine, e quindi classificheremo bene per quella frase chiave su un certo numero di motori. Sfortunatamente questo è raramente il caso. Tutti i principali motori di ricerca si differenziano in qualche modo, quindi quello che ti porta in una posizione elevata su un motore potrebbe effettivamente aiutarti ad abbassare il tuo posizionamento su un altro motore.
È per questo motivo che ad alcune persone piace ottimizzare le pagine per ogni particolare motore di ricerca. Di solito queste pagine sarebbero solo leggermente diverse ma questa leggera differenza potrebbe fare la differenza quando si tratta di classificare in alto.
Tuttavia, poiché gli spider dei motori di ricerca eseguono la scansione attraverso i siti che indicizzano ogni pagina che può trovare, potrebbero trovare pagine di ottimizzazione specifiche del motore di ricerca e, poiché sono molto simili, lo spider potrebbe pensare di inviarlo e farà una delle due cose sito del tutto o severamente ti punisce sotto forma di classifiche inferiori.
La soluzione è che questo caso è di impedire a specifici spider dei motori di ricerca di indicizzare alcune delle tue pagine web. Questo viene fatto usando un file robots.txt che risiede sul tuo spazio web.
Un file Robots.txt è una parte vitale di qualsiasi battaglia dei webmaster contro l';essere bannati o puniti dai motori di ricerca se lui o lei progetta pagine diverse per i diversi motori di ricerca.
Il file robots.txt è solo un semplice file di testo come suggerisce l';estensione del file. Viene creato utilizzando un semplice editor di testo come Blocco note o WordPad, elaboratori di testi complicati come Microsoft Word possono solo danneggiare il file.
È possibile inserire un determinato codice in questo file di testo per farlo funzionare. Questo è come può essere fatto.
Agente utente: (nome ragno)
Non consentire: (Nome file)
L';User-Agent è il nome dello spider dei motori di ricerca e Disallow è il nome del file che non vuoi che lo spider indicizzi.
Devi avviare una nuova serie di codice per ciascun motore, ma se desideri elencare molti file non consentiti, puoi uno sotto l';altro. Per esempio
User-Agent: Slurp (Inktomi';s spider)
Non consentire: xyz-gg.html
Disallow: xyz-al.html
Disallow: xxyyzz-gg.html
Disallow: xxyyzz-al.html
Il codice sopra non consente a Inktomi di spider due pagine ottimizzate per Google (gg) e due pagine ottimizzate per AltaVista (al). Se a Inktomi fosse permesso di spiderare queste pagine così come le pagine create appositamente per Inktomi, potresti correre il rischio di essere bannato o penalizzato. Quindi, è sempre una buona idea usare un file robots.txt.
Il file robots.txt risiede sul tuo spazio web, ma dove sul tuo spazio web? La directory principale! Se carichi il tuo file in sottodirectory non funzionerà. Se si desidera impedire a tutti i motori di indicizzare un file, è sufficiente utilizzare il carattere :*: dove solitamente si trova il nome del motore. Tuttavia, fai attenzione che il carattere :*: non funzionerà sulla riga Disallow.
Ecco i nomi di alcuni dei grandi motori:
Excite - ArchitextSpider
AltaVista - Scooter
Lycos - Lycos_Spider_ (T-Rex)
Google - Googlebot
Alltheweb - FAST-WebCrawler
Assicurati di controllare il file prima di caricarlo, poiché potresti aver fatto un semplice errore, il che potrebbe significare che le tue pagine sono indicizzate da motori che non vuoi indicizzare, o ancora peggio nessuna delle tue pagine potrebbe essere indicizzata.