Molte applicazioni sono per lo più motori di ricerca, scansione di siti Web ogni giorno per trovare dati aggiornati.
La maggior parte dei crawler web salva una copia della pagina visitata in modo da poter indicizzarla facilmente in un secondo momento e il resto esegue la scansione delle pagine per scopi di ricerca delle pagine, ad esempio la ricerca di e-mail (per SPAM).
Come funziona?
Un crawler ha bisogno di un punto di partenza che sarebbe un indirizzo web, un URL.
Per navigare su internet utilizziamo il protocollo di rete HTTP che ci permette di parlare con i server web e scaricare o caricare dati da e verso di esso.
Come funziona la Ricerca Google?
Il crawler naviga su questo URL e cerca i collegamenti ipertestuali (un tag in linguaggio HTML).
Quindi il crawler sfoglia questi collegamenti e si muove allo stesso modo.
Fino a qui era l';idea di base. Ora, il modo in cui ci spostiamo dipende completamente dallo scopo del software stesso.
Se vogliamo solo prendere email, cercheremo il testo su ogni pagina web (inclusi i collegamenti ipertestuali) e cercheremo indirizzi email. Questo è il tipo più semplice di software da sviluppare.
I motori di ricerca sono molto più difficili da sviluppare.
Quando costruisci un motore di ricerca, dobbiamo occuparci di alcune altre cose.
1. Dimensione: alcuni siti Web sono molto grandi e contengono molte directory e file. Potrebbe consumare molto tempo a raccogliere tutti i dati.
2. Frequenza delle modifiche: un sito web può cambiare molto spesso anche poche volte al giorno. Le pagine possono essere cancellate e aggiunte ogni giorno. Dobbiamo decidere quando rivisitare ciascun sito e ogni pagina per sito.
3. Come elaboriamo l';output HTML? Se costruiamo un motore di ricerca, vorremmo capire il testo piuttosto che considerarlo come testo semplice. Dobbiamo distinguere tra una didascalia e una frase semplice. Dobbiamo cercare il testo in grassetto o in corsivo, i colori dei caratteri, le dimensioni dei caratteri, i paragrafi e le tabelle. Ciò significa che dobbiamo conoscere l';HTML molto bene e dobbiamo prima analizzarlo. Ciò di cui abbiamo bisogno per questo compito è uno strumento chiamato :HTML TO XML Converters:. Uno può essere trovato sul mio sito web. Puoi trovarlo nella scatola delle risorse o semplicemente cercarlo nel sito Web di Noviway: www.Noviway.com.
Questo è tutto per ora. Spero tu abbia imparato qualcosa.