Come funzionano i motori di ricerca?

Per molte persone, Google IS Internet. È senza dubbio l'invenzione più importante dal momento che Internet stessa. E mentre i motori di ricerca sono cambiati molto da allora, i principi sottostanti sono sempre gli stessi.

Per molte persone, Google IS Internet.  È senza dubbio l'invenzione più importante dal momento che Internet stessa.  E mentre i motori di ricerca sono cambiati molto da allora, i principi sottostanti sono sempre gli stessi.
Annuncio pubblicitario

Articolo aggiornato da Joel Lee il 10/10/2017

Sblocca ora il cheat "Top Tasti di scelta rapida della tastiera di ricerca di Google"!

Questo ti iscriverà alla nostra newsletter

Inserisci la tua e-mail di sblocco Leggi la nostra politica sulla privacy

Per molti, Google è internet. È il punto di partenza per trovare nuovi siti ed è probabilmente l'invenzione più importante dal momento che Internet stessa. Senza i motori di ricerca, i nuovi contenuti web sarebbero inaccessibili alle masse.

Ma sai come funzionano i motori di ricerca? Ogni motore di ricerca ha tre funzioni principali: scansione (per scoprire il contenuto), indicizzazione (per tracciare e archiviare il contenuto) e recupero (per recuperare il contenuto pertinente quando gli utenti interrogano il motore di ricerca).

crawling

La scansione è dove tutto ha inizio: l'acquisizione di dati su un sito web.

Ciò comporta la scansione di siti e la raccolta di dettagli su ogni pagina: titoli, immagini, parole chiave, altre pagine collegate, ecc. Diversi crawler possono anche cercare dettagli diversi, come i layout di pagina, dove vengono inseriti gli annunci, se i link sono stipati, ecc.

Ma come si esegue la scansione di un sito Web? Un bot automatizzato (chiamato "spider") visita pagina dopo pagina il più rapidamente possibile, usando i collegamenti alle pagine per trovare dove andare dopo. Anche nei primi giorni, gli spider di Google potevano leggere diverse centinaia di pagine al secondo. Al giorno d'oggi, è tra migliaia.

Come funzionano i motori di ricerca? diagramma del crawler web

Quando un crawler Web visita una pagina, raccoglie tutti i link della pagina e li aggiunge all'elenco delle pagine successive da visitare. Va alla pagina successiva nella sua lista, raccoglie i collegamenti su quella pagina e si ripete. I web crawler riesaminano anche le pagine passate una volta ogni tanto per vedere se sono avvenute delle modifiche.

Ciò significa che qualsiasi sito collegato da un sito indicizzato verrà infine sottoposto a scansione. Alcuni siti vengono sottoposti a scansione più frequentemente e alcuni vengono sottoposti a scansione a profondità maggiori, ma a volte un crawler può rinunciare se la gerarchia di una pagina di un sito è troppo complessa.

Un modo per capire come funziona un crawler web è crearne uno tu stesso. Abbiamo scritto un tutorial sulla creazione di un web crawler di base in PHP, quindi verificalo se hai esperienza di programmazione.

Come funzionano i motori di ricerca? ricerca google su tablet

Nota che le pagine possono essere contrassegnate come "noindex", che è come chiedere ai motori di ricerca di saltare la sua indicizzazione. Le parti non indicizzate di Internet sono conosciute come "deep web" Cos'è il Deep Web? È più importante di quanto pensi che sia il Deep Web? È più importante di quanto pensi Il web profondo e la rete oscura sono entrambi spaventosi e nefasti, ma i pericoli sono stati esagerati. Ecco cosa fanno in realtà e come puoi persino accedervi da soli! Leggi di più, e alcuni siti, come quelli ospitati sulla rete TOR, non possono essere indicizzati dai motori di ricerca. (Cos'è il routing TOR e cipolla? Cos'è il routing delle cipolle, esattamente? [MakeUseOf Explains] Cos'è il routing delle cipolle, esattamente? [MakeUseOf Explains] Internet privacy. L'anonimato era una delle maggiori caratteristiche di Internet in gioventù (o le sue peggiori caratteristiche, a seconda di chi si chiede). Lasciando da parte i tipi di problemi che sorgono ... Per saperne di più)

indicizzazione

L'indicizzazione avviene quando i dati di una ricerca per indicizzazione vengono elaborati e inseriti in un database.

Immagina di creare un elenco di tutti i libri che possiedi, i loro editori, i loro autori, i loro generi, i loro conteggi delle pagine, ecc. Scansione è quando si sfogliano ogni libro mentre l'indicizzazione è quando li si accede al proprio elenco.

Ora immagina che non sia solo una stanza piena di libri, ma ogni biblioteca del mondo. Questa è una versione su scala ridotta di ciò che fa Google, che memorizza tutti questi dati in vasti data center con migliaia di petabyte di drive Dimensioni della memoria spiegate - Gigabyte, Terabyte e petabyte nei termini di Layman's Spiegazione delle dimensioni di memoria - Gigabyte, Terabyte e petabyte in Termini di Layman È facile vedere che 500 GB è superiore a 100 GB. Ma come si confrontano le diverse dimensioni? Che cos'è un gigabyte in un terabyte? Dove si inserisce un petabyte? Chiariamolo! Leggi di più .

Ecco una sbirciatina in uno dei data center di ricerca di Google:

Come funzionano i motori di ricerca? data center di ricerca google
Credito immagine: Google

Recupero e classifica

Il recupero si verifica quando il motore di ricerca elabora la query di ricerca e restituisce le pagine più pertinenti corrispondenti alla query.

La maggior parte dei motori di ricerca si differenziano attraverso i loro metodi di recupero: utilizzano criteri diversi per scegliere e scegliere quali pagine si adattano meglio a ciò che si desidera trovare. Ecco perché i risultati di ricerca variano tra Google e Bing, e perché Wolfram Alpha è così straordinariamente utile 10 Usi fantastici di Wolfram Alpha Se leggi e scrivi nella lingua inglese 10 Usi fantastici di Wolfram Alpha Se leggi e scrivi nella lingua inglese Ci sono voluti mi dedica un po 'di tempo a pensare a Wolfram Alpha e alle domande che usa per far uscire quei risultati. Devi immergerti profondamente in Wolfram Alpha per sfruttarlo davvero per ... Per saperne di più.

Gli algoritmi di classificazione controllano la query di ricerca rispetto a miliardi di pagine per determinare la pertinenza di ciascuno. Le aziende proteggono i loro algoritmi di classificazione come segreti industriali brevettati a causa della loro complessità. Un algoritmo migliore si traduce in una migliore esperienza di ricerca.

Inoltre, non vogliono che i creatori del Web giochino al sistema e scalino ingiustamente le vette dei risultati di ricerca. Se la metodologia interna di un motore di ricerca fosse mai uscita, tutti i tipi di persone avrebbero sicuramente sfruttato quella conoscenza a scapito degli utenti come te e me.

Come funzionano i motori di ricerca? meta del motore di ricerca penna html
Credito immagine: photovibes via Shutterstock

Lo sfruttamento dei motori di ricerca è possibile, ovviamente, ma non è più così semplice.

Originariamente, i motori di ricerca classificavano i siti in base alla frequenza con cui le parole chiave apparivano su una pagina, il che portava a "riempire le parole chiave" - ​​riempiendo le pagine con parole senza senso.

Poi è arrivato il concetto di importanza del collegamento: i motori di ricerca hanno valutato i siti con molti link in entrata perché hanno interpretato la popolarità del sito come rilevanza. Ma questo ha portato a collegare lo spam su tutto il web. Oggigiorno, i motori di ricerca pesano i collegamenti a seconda della "autorità" del sito di collegamento. I motori di ricerca attribuiscono più valore ai collegamenti di un'agenzia governativa rispetto ai collegamenti da una directory di collegamenti.

Oggi, gli algoritmi di ranking sono più misteriosi che mai e "ottimizzazione dei motori di ricerca" Demystify SEO: 5 guide per l'ottimizzazione dei motori di ricerca che ti aiutano a demistificare SEO: 5 guide per l'ottimizzazione dei motori di ricerca che ti aiutano a iniziare La padronanza dei motori di ricerca richiede conoscenza, esperienza e molte prove ed errori. È possibile iniziare a imparare i fondamenti ed evitare facilmente errori SEO comuni con l'aiuto di molte guide SEO disponibili sul Web. Leggi di più non è così importante. Le buone classifiche dei motori di ricerca ora provengono da contenuti di alta qualità e da esperienze utente fantastiche.

Cosa c'è di nuovo per i motori di ricerca?

Ah, ora c'è una domanda interessante. La risposta è "semantica": il significato del contenuto della pagina. Puoi leggere di più nella nostra panoramica sul markup semantico e sul suo impatto futuro Che cos'è il markup semantico e come cambierà Internet per sempre [Tecnologia spiegata] Cosa è il markup semantico e come cambierà Internet Forever [Tecnologia spiegata] Ulteriori informazioni.

Ma ecco il succo di ciò.

Al momento, puoi cercare "cookie senza glutine" ma i risultati potrebbero restituire ricette per biscotti senza glutine. Invece, potresti trovare ricette di biscotti regolari che dicono "Questa ricetta non è priva di glutine". Ha le parole chiave giuste, ma il significato sbagliato.

Con la semantica, puoi cercare le ricette dei cookie e rimuovere alcuni ingredienti: farina, noci, ecc. Puoi anche limitare i risultati alle sole ricette con tempi di preparazione inferiori a 30 minuti e rivedere i punteggi di 4/5 o più. Sarebbe bello, giusto? Ecco dove stiamo andando!

Ancora confuso su come funzionano i motori di ricerca? Guarda come Google spiega il processo:

Se hai trovato questo interessante, ti potrebbe interessare sapere come funzionano i motori di ricerca di immagini .

Immagine di credito: prykhodov / Depositphotos

In this article