Google RankBrain: intelligenza artificiale nel motore di ricerca?

da webcreator | Dic 10, 2015 | Blog

By Tagliaerbe, blog.tagliaerbe.com

Da lunedì (26 Ottobre 2015) si fa un gran parlare di Google RankBrain, a causa di un articolo comparso su Bloomberg e intitolato (traducendolo un po’ a spanne) “Google sta spostando la sua lucrativa ricerca web su macchine con intelligenza artificiale“.

Danny Sullivan ha provato ad estrarre una sorta di FAQ su RankBrainpartendo da questa intervista, e aggiungendo al pezzo altre informazioni nate da uno scambio di battute avvenuto direttamente con personaggi di Google (con i quali è in contatto).

Eccoti la traduzione.

Cosa è RankBrain?

RankBrain è il nome dato da Google ad un sistema di intelligenza artificiale di apprendimento automatico, che viene utilizzato per aiutare a processare i risultati della ricerca.

Cosa è il “Machine Learning”?

Si parla di “Machine Learning” quando un computer insegna a se stesso come fare qualcosa, invece che “impararlo” da esseri umani (tramite programmazione).

Cosa è l’Intelligenza Artificiale (AI)?

Si parla di Intelligenza Artificiale, spesso abbreviata in AI, quando un computer si avvicina all’intelligenza di un essere umano, almeno dal punto di vista dell’acquisizione della conoscenza, sia dal punto di vista dell’apprendimento sia da quello della costruzione, partendo dalla base di ciò che già conosce e imparando a fare nuovi collegamenti.

Quando si parla di RankBrain, i termini Machine Learning e Artificial Intelligence vengono spesso usati come sinonimi.

RankBrain è il nuovo modo di Google per classificare i risultati della ricerca?

No. RankBrain è una parte dell’”algoritmo” globale di ricerca di Google, un programma che viene utilizzato per ordinare miliardi di pagine e trovare quelle più rilevanti per determinate query.

Qual è il nome dell’algoritmo di ricerca di Google?

Oggi si chiama Hummingbird.

Per diversi anni non ha avuto un nome formale, ma a fine dell’estate del 2013 è stato profondamente revisionato e lanciato con questo nome.

Quindi RankBrain è una parte di Hummingbird?

Sì (secondo Danny Sullivan). Se consideriamo Hummingbird come il motore di un’automobile, fatto di varie parti, RankBrain potrebbe essere considerato come una di queste componenti.

Tra l’altro, il pezzo di Bloomberg dice proprio che RankBrain NON gestisce tutte le ricerche, come invece fa l’algoritmo globale.

Hummingbird include altre parti con nomi familiari nell’ambiente SEO, come Panda, Penguin e Payday Loan (pensati per combattere lo spam),Pigeon (pensato per le ricerche locali), Top Heavy (pensato per colpire le pagine con troppi banner) o Mobile-Friendly (pensato per premiare i siti disegnati per dispositivi mobili).

Pensavo che il nome dell’algoritmo di Google fosse “PageRank”

Anche il PageRank è una parte di Hummingbird, e si occupa specificatamente di attribuire un valore alle pagine in base ai link che queste ricevono.

Il PageRank è famoso perché è stato il primo nome che Google ha dato ad una componente del suo algoritmo di ranking, nel lontano 1998.

Quali “segnali” utilizza Google per determinare il ranking?

I segnali sono le cose che Google utilizza per determinare la classificazione delle pagine web. Ad esempio, Google legge le parole presenti all’interno della pagina. Se alcune di queste sono in grassetto, potrebbe essere un segnale che viene osservato. Il valore del PageRank della pagina è un altro segnale. Anche il fatto che sia (o meno) mobile-friendly è un segnale.

Tutti questi segnali vengono elaborati dai vari componenti di Hummingbird per capire quali pagine il motore debba restituire in risposta alle ricerche effettuate dagli utenti.

Quanti segnali esistono, in totale?

Google parla spesso di “più di 200 segnali di ranking”, che potrebbero avere fino 10.000 variazioni (o sotto-segnali). Anche nel pezzo di Bloomberg si parla di “centinaia” di fattori (la maggior parte di questi sono stati raccolti all’interno della “tavola periodica dei fattori SEO di successo“).

RankBrain è il terzo segnale più importante?

Così parrebbe. Secondo l’articolo di Bloomberg, e secondo le dichiarazioni di Greg Corrado (Senior Research Scientist di Google):

RankBrain è uno delle “centinaia” di fattori dell’algoritmo che determina quali risultati vengono visualizzati in una pagina di ricerca di Google e dove sono classificati. Nei pochi mesi da quando è stato rilasciato, RankBrain è diventato il terzo più importante segnale che contribuisce al risultato di una query di ricerca.

Quali sono il primo e il secondo segnale più importante?

A questa domanda Google non ha voluto rispondere, nonostante Sullivan l’abbia chiesto 2 volte.

Secondo lui, i link – ovvero il modo in cui Google conta i link sotto forma di voti – rimangono il segnale più importante, mentre al secondo posto ci sono le “parole”, intese nel senso più ampio possibile: dalle parole presenti sulla pagina, a come Google interpreta le parole che gli utenti scrivono nel modulo di ricerca del motore.

Cosa fa esattamente RankBrain?

In base allo scambio di email con Google e secondo l’interpretazione di Sullivan, RankBrain viene utilizzato principalmente come un modo per interpretare le ricerche che le persone fanno per trovare pagine che potrebbero non includere le parole usate per effettuare la ricerca.

Ma Google non dispone già di una tecnologia per trovare pagine pertinenti al di fuori della query precisa?

Sì. Se parecchi anni fa cercavi – per esempio – [scarpa] Google non trovava le pagine che parlavano di [scarpe], perché le 2 parole sono diverse. Ma lo “stemming” ha poi permesso a Google di capire queste varianti e molte altre (come, ad esempio, [running] che è una variante di [run]).

Google è migliorato molto anche lato sinonimi: per esempio, può capire che se cerchi [scarpe da ginnastica] ti potrebbero interessare delle [scarpe da corsa]. E anche “concettualmente”, può discernere fra le pagine che parlano di [Apple] (intesa come azienda che produce prodotti tecnologici) da quelle che parlano di [apple] (inteso come frutto).

E per quanto riguarda il Knowledge Graph?

Il Knowledge Graph, lanciato nel 2012, è stata la dimostrazione che Google comprende molto meglio le connessioni esistenti fra le parole.

Ma ancora più importante, Google è passato da “stringhe (di caratteri) a cose”: “Things, not strings” è il motto coniato da Amit Singhal, che identifica il percorso verso la comprensione del significato completo delle query, oltre le singole parole chiave.

Per esempio, se cerchi [when was the wife of obama born] su Google.com, ottieni come prima risposta (corretta) la data di nascita di Michelle Obama, anche se nella query non hai scritto il suo nome proprio.

In che modo RankBrain aiuta a raffinare le query?

Il metodo usato oggi da Google coinvolge una parte di lavoro umano: creare “stemming list”, liste di sinonimi o connessioni database fra le cose, anche se sono attività che a regime vengono svolte da macchine, prevedono un lavoro umano a monte.

Il problema è che Google elabora 3 miliardi di ricerche al giorno. Nel 2007, Google ha affermato che il 20-25% di queste query non erano mai state fatte prima. Nel 2013 questa percentuale è scesa al 15%, cosa citata dall’articolo di Bloomberg e confermata anche a Sullivan da Google. Ma il 15% di 3 miliardi rimane comunque un numero enorme: significa 450 milioni di query mai viste al giorno.

Molte di queste query sono complesse, composte da più parole, chiamate anche “di long tail“. RankBrain è progettato per aiutare a meglio interpretare queste query, in modo da restituire a chi cerca le pagine migliori.

Google ha detto a Sullivan che può identificare i modelli fra ricerche complesse apparentemente non connesse fra loro, e comprenderne le similitudini. E cosa più importante, Google può associare questi gruppi di ricerche con i risultati che pensa piaceranno di più agli utenti.

E’ possibile vedere un esempio?

Anche se Google non ha fornito esempi a Sullivan, nell’articolo di Bloomberg c’è questo:

What’s the title of the consumer at the highest level of a food chain

“Consumatore” fa spesso riferimento a qualcuno che compra qualcosa, ma scientificamente identifica qualcuno che consuma cibo. Ci sono livelli di consumatori anche nella catena alimentare: quelli al vertice sono chiamati “predatori”.

Anche se la query può suonare piuttosto strana, la risposta fornita è buona:

Ora guarda la similitudine con i risultati della ricerca per [top level of the food chain]:

Immagina che ci sia una connessione fra la prima ricerca (più lunga e complicata) e la seconda (più breve e probabilmente più comune). RankBrain potrebbe capire la relazione fra le 2 query e Google potrebbe sfruttarla per migliorare la query meno comune con le risposte presenti in quella più comune.

Ovviamente sono solo ipotesi, nessuno sa se e come queste 2 query siano collegate (internamente) fra loro.

Ma Bing non fa la stessa cosa, con RankNet?

Nel 2005 Microsoft lanciò il suo sistema di machine learning, denominato RankNet, come parte di quello che oggi è il motore di ricerca Bing. Nel corso degli anni, però, Microsoft ha fatto cenno pochissime volte a RankNet (chissà se le cose, da oggi, cambieranno).

E’ interessante il fatto che inserendo la stessa query di cui sopra su Bing, il risultato è molto simile (e di buona qualità):

Purtroppo, non avendo a disposizione altri esempi, non è possibile mettere a confronto la qualità di RankBrain con quella di RankNet.

Non ci sono proprio altri esempi?

Google ne ha dato solo uno a Sullivan, questo: “How many tablespoons in a cup?”, dicendo che RankBrain avrebbe dato risultati diversi in Australia rispetto agli Stati Uniti, perché le “misure” (immagino si parli delle dimensioni dei cucchiai e delle tazze) sono diverse fra i 2 Paesi.

Sullivan ha provato a fare il test, ma non ha notato differenze apprezzabili. E comunque anche senza RankBrain i risultati di una ricerca su Google fra 2 diversi Paesi anglofoni possono essere notevolmente diversi, come ben sappiamo.

RankBrain può davvero essere d’aiuto?

Nonostante i 2 esempi non l’abbiano convinto del tutto, Sullivan crede che RankBrain avrà un grosso impatto: Google non parla spesso dei suoi algoritmi di ranking, ma quando lo fa è perché le cose sono già ad uno stato avanzato di sviluppo.

Dire che “RankBrain è il terzo segnale più importante” è un’affermazione forte, che Google non avrebbe fatto se RankBrain fosse di scarso peso.

Quando è stato lanciato RankBrain?

Google ha detto che RankBrain è stato rilasciato gradualmente all’inizio del 2015, ed è completamente attivo da qualche mese.

Quali query vengono influenzate da RankBrain?

Google ha detto a Bloomberg che “una porzione molto grande” di query vengono elaborate da RankBrain. Sullivan ha chiesto ulteriori dettagli a Google, ma ha ottenuto la stessa identica risposta.

RankBrain è in costante apprendimento?

Tutto ciò che RankBrain apprende viene fatto offline, ha detto Google a Sullivan. Lavora su blocchi di ricerche storiche, e impara a fare previsioni partendo da queste.

Queste previsioni vengono poi testate, e se il risultato è buono vengono rese pubbliche. E quindi riparte il ciclo “apprendimento offline + test”.

RankBrain potrà fare qualcosa in più del “raffinamento” delle query?

In linea generale, raffinare una query tramite stemming, sinonimi e ora RankBrain non è da considerare un fattore/segnale di ranking.

I segnali sono solitamente fattori legati al contenuto, come ad esempio le parole su una pagina, i link che puntano ad una pagina, se la pagina è su un server sicuro, e così via. Possono anche essere collegati ad un utente, per esempio in base a dove si trova o al suo storico e le sue abitudini di navigazione.

Quando Google parla di RankBrain come del “terzo segnale più importante”, parla dunque di un segnale di ranking? Secondo Sullivan, sì: Google gli ha infatti confermato che c’è una parte dove RankBrain contribuisce direttamente, in qualche modo, a definire il rank di una pagina.

In che modo? C’è forse un “RankBrain score” che potrebbe valutarne la qualità? Forse, ma secondo Sullivan è molto più probabile che RankBrain stia aiutando in qualche modo Google a classificare meglio le pagine in base al contenuto che contengono. RankBrain potrebbe essere in grado di riassumere meglio il tema di una pagina rispetto ai sistemi che Google ha utilizzato fino ad oggi.

E’ possibile avere informazioni più approfondite su RankBrain?

Google ha detto a Sullivan che chi vuole approfondire il concetto di “vettori” – ovvero il modo in cui le parole e le frasi possono essere “matematicamente collegate” – dovrebbe dare un’occhiata a questo vecchio post dell’Agosto 2013, nel quale si parla di come il sistema (che nel post non era ancora chiamato col nome di RankBrain) ha imparato il concetto di “città capitali”, solo tramite la scansione di alcune notizie e articoli.

Un paper di Google più lungo e dettagliato può essere scaricato da qui. Puoi anche dare un’occhiata ad un toolkit open source di Google denominato word2vec, o all’intera area dedicata all’”Artificial Intelligence and Machine Learning“, che include centinaia di pubblicazioni.