Google nlp: comprendere il natural language processing e il suo utilizzo da parte del motore di ricerca

Pubblicato il 22 Giugno 2022 - Aggiornato il 15 Dicembre 2023

L’elaborazione del linguaggio naturale non è una novità nell’arena tecnologica. Tuttavia, con i progressi degli ultimi anni, questo ramo dell’intelligenza artificiale ha assunto una vera centralità, al punto da essere incorporato in molti programmi per computer usati quotidianamente (come i traduttori automatici).

Google ha sfruttato questa tecnologia introducendo il linguaggio naturale nel suo algoritmo di ranking e, più recentemente, offrendo alle aziende un’API dedicata, Google NLP. Scopriamo i collegamenti tra Google e NLP (Natural Language Processing) e vediamo come questa tecnologia influenza l’indicizzazione e il posizionamento delle pagine Web, e, quindi, le strategie di posizionamento naturale.

Che cos’è l’elaborazione automatica del linguaggio naturale?

Prima di approfondire il lavoro di Google sul NLP, è necessario capire cosa si intende per Natural Language Processing (elaborazione automatica del linguaggio naturale). Questa branca dell’intelligenza artificiale mira a fornire a un programma per computer la capacità di comprendere e interpretare il linguaggio parlato e scritto dagli esseri umani, con tutte le sue complessità e sfumature. Pertanto, l’algoritmo che utilizza il NLP è in grado di analizzare le frasi, cogliere il significato delle parole nel loro contesto e, in definitiva, di generare lui stesso il linguaggio per comunicare.

L’elaborazione automatica del linguaggio naturale combina abilità computazionali, matematiche e linguistiche. Nel campo dell’intelligenza artificiale, è al crocevia del machine learning e del deep learning (due metodi di apprendimento autonomo), come si può vedere nel diagramma seguente:

(Fonte: Sidartha Mehra, searchgate.net)

L’obiettivo è facilitare le “comunicazioni” tra uomini e macchine, aiutando queste ultime a parlare la stessa lingua dei primi. Con due effetti immediati e tangibili: la semplificazione nell’uso delle tecnologie e la rapida automazione di compiti ardui, grazie alla capacità dei programmi di elaborare enormi volumi di dati grezzi in tempi record. Queste informazioni, una volta strutturate, possono essere utilizzate.

In effetti, l’elaborazione automatica del linguaggio naturale è già sfruttata per applicazioni utilizzate quotidianamente da privati e aziende (per non parlare dei motori di ricerca e dell’API NLP di Google). Alcuni esempi concreti:

  • Traduttori automatici, come Google Translate, che restituiscono istantaneamente un testo nella lingua desiderata.
  • Assistenti vocali: i software integrati in smartphone o computer (Siri, Cortana) e altoparlanti intelligenti (Google Home, Alexa).
  • Chatbot: programmi che simulano conversazioni umane e sono in grado di rispondere a domande semplici degli utenti (abbondano sui siti Web aziendali).
  • Correttori automatici, come quello integrato in Microsoft Word, o il software Antidote.

È proprio così: se hai utilizzato un traduttore istantaneo o cliccato sul correttore di bozze nel tuo documento Word, ti sei avvalso di uno strumento che utilizza tecnologie di machine learning e si concentra sulla comprensione del linguaggio naturale. Esistono anche altre applicazioni, più specifiche e spesso utilizzate dai professionisti: trascrizione automatica della lingua parlata in testo (e viceversa), sintesi automatica con riformulazione e parafrasi, analisi del valore emotivo di un contenuto, modellazione del linguaggio naturale sotto forma di frasi complete, strumenti di analisi di contenuti testuali (come Google NLP), ecc.

Più in generale, tutti i programmi che si basano sulla comprensione del linguaggio naturale si fondano sulla tecnologia NLP e tutti mirano a semplificare i compiti umani. Siamo, quindi, molto lontani dalle fantasie talvolta associate al progresso dell’intelligenza artificiale, con le macchine che prendono il potere!

La storia dell’elaborazione del linguaggio naturale

Il lavoro di Google sul NLP è solo un passo in avanti in un campo già da tempo oggetto di studio, la cui nascita coincide quasi con quella dei computer. I primi esperimenti di elaborazione automatica del linguaggio naturale risalgono agli anni ’50 con lo sviluppo di strumenti di traduzione istantanea, in un contesto politico (quello della Guerra Fredda) caratterizzato da sfide che hanno favorito questo tipo di ricerca. La nozione di “sistemi conversazionali” è poi al centro del lavoro di diversi scienziati: è il momento del famoso test esposto da Alan Turing nel suo articolo “Computing machinery and intelligence” (fonte).

Il primo robot conversazionale della storia, ELIZA, è stato creato da Joseph Weizenbaum in un laboratorio nordamericano tra il 1964 e il 1966. Successivamente, negli anni ’80, dopo il susseguirsi di programmi in grado di strutturare le informazioni in dati comprensibili dai computer, l’aumento delle capacità di elaborazione ha aperto la strada a nuovi usi del NLP. Questo si è verificato, in particolare, attraverso l’introduzione di algoritmi di machine learning: i computer diventano in grado di “apprendere” e di definire le proprie regole.

Dall’inizio del XXI secolo, abbiamo assistito allo sviluppo sorprendente dell’elaborazione automatica del linguaggio naturale: approfondimento del deep learning, aumento esponenziale della potenza di calcolo dei computer, esplosione del volume dei dati, ecc. E, di conseguenza, applicazioni concrete, accessibili all’utente medio, come la comparsa del primo assistente virtuale installato su smartphone alla fine del 2011 su iPhone 4S, poi quella degli altoparlanti intelligenti (Amazon nel 2014, Google nel 2016).

Come funziona il Natural Language Processing?

L’idea alla base della comprensione del linguaggio naturale non è quindi nuova, ma ha fatto rapidi progressi con il deep learning. Questa metodologia si basa sull’uso di reti neurali artificiali che “imitano” il cervello umano. Il linguaggio “naturale” è molto complesso in quanto è caratterizzato da elementi di difficile interpretazione per le macchine: allusioni, umorismo, metafore, antifrasi, ecc. Le tecnologie del NLP mirano, perciò, a catturare queste sfumature e a combinarle con l’apprendimento autonomo, con l’obiettivo di convertire la lingua in dati grezzi, generare interazioni con gli utenti e creare conversazioni intelligenti.

A tal fine, l’algoritmo utilizza ricorrenze, schemi e correlazioni per scomporre il linguaggio umano e, infine, comprenderne il significato. Si classificano e segmentano gli elementi costitutivi del discorso, si separano parole e gruppi di parole e vi si assegnano funzioni in base alla loro morfologia. Per finire, il programma è in grado di distinguere il gruppo nominale, il verbo coniugato, diverse proposizioni, complementi, persone, generi, numeri e così via. Vengono prese in considerazione diverse metodologie (l’analisi della frequenza dei termini, il confronto delle occorrenze di una parola-chiave in più testi di uno stesso corpus, lo studio del contesto, ecc.), oltre a più livelli di elaborazione del linguaggio:

  • analisi lessicale;
  • analisi sintattica;
  • analisi semantica;
  • analisi pragmatica.

Questo è esattamente il funzionamento delle applicazioni del NLP di Google, come il suo algoritmo BERT.

Google e il NLP: l’elaborazione del linguaggio naturale integrata nell’algoritmo del motore di ricerca

In termini di elaborazione automatica del linguaggio naturale, Google è il riferimento, ma ci concentreremo principalmente su come si usa questa tecnologia per trasformare i processi di indicizzazione e posizionamento delle pagine Web.

Per capire come cambia l’algoritmo di Google, basta osservare l’esperienza dell’utente. L’azienda di Mountain View vuole, infatti, garantire la soddisfazione degli utenti Internet che utilizzano il proprio motore di ricerca offrendo loro risultati quanto più pertinenti possibili, ciò significa migliorare continuamente la qualità delle pagine evidenziate nella propria SERP.

In questo contesto, la comprensione delle richieste avanzate dagli utenti è una sfida importante. Non si tratta più solo di cogliere il significato delle parole a livello globale, ma di individuare l’intenzione che sta dietro la ricerca per rispondervi meglio. Ciò richiede la comprensione delle sfumature di una query, ma anche il rilevamento di termini che esprimono “emozioni”.

Questo lavoro di Google sul NLP ha portato al lancio nel 2019 dell’algoritmo BERT, il più grande aggiornamento in cinque anni per l’azienda (nelle sue stesse parole) e un vero balzo in avanti nel modo in cui funzionano i motori di ricerca. BERT non si accontenta più di elaborare le query parola per parola: intreccia collegamenti tra i termini utilizzati per tenere conto del contesto della ricerca e coglierne il “significato profondo”. In quest’ottica, esamina tutti i termini utilizzati, comprese le parole linkate e le preposizioni, e valuta “l’emozione” della query, assegnandole un punteggio (positivo, negativo o neutro).

Al momento del suo lancio, l’algoritmo BERT (Bidirectional Encoder Representations from Transformers) è il culmine tecnologico della ricerca Google sul NLP. BERT si fonda su due pilastri:

  • i dati (modelli pre-addestrati: set di informazioni da analizzare attraverso l’elaborazione automatica del linguaggio naturale);
  • e la metodologia (il modo in cui l’algoritmo utilizza questi modelli).

In altre parole, con BERT Google intende “leggere” la mente degli utenti comprendendo non solo la richiesta, ma anche gli impliciti. È anche una leva per capire le nuove query, quelle formulate per la prima volta, e che Google valuta (al momento) intorno al 15% delle ricerche giornaliere.

Nel 2021, il lavoro di Google sul NLP si è intensificato ed è culminato in MUM (Multitask Unified Model), l’aggiornamento del suo algoritmo che migliora ulteriormente la comprensione del linguaggio naturale e, così facendo, la pertinenza delle risposte fornite agli utenti di Internet. In particolare, MUM si concentra su quelle che Google chiama “query complesse”, caratterizzate dalla loro lunghezza e dall’inclusione di molteplici proposizioni. L’obiettivo di MUM è rispondere a queste domande in una volta sola, affidandosi a funzionalità avanzate: estrazione di informazioni da diversi formati di contenuto, visualizzazione di risorse estrapolate dai risultati in 75 lingue (con traduzione istantanea) e svolgimento di più attività contemporaneamente.

L’elaborazione automatica del linguaggio naturale in Google: cosa cambia davvero per la SEO?

L’integrazione nel motore di ricerca di Google del NLP mira a migliorare i servizi forniti agli utenti di Internet. Le tecnologie di elaborazione del linguaggio naturale aiutano gli algoritmi a comprendere meglio le query degli utenti e a fornire loro risposte più pertinenti, in grado di soddisfarli.

Questo è tanto più importante per Google, poiché tali esigenze sono dettate dall’evoluzione dei comportamenti, in particolare dal crescente utilizzo della ricerca vocale, a sua volta resa possibile dalle applicazioni del NLP. Un ampio sondaggio condotto nel 2019 da Uberall (i cui risultati sono riportati qui) mostra che il 21% degli intervistati utilizza la ricerca vocale settimanalmente. Le ricerche formulate oralmente utilizzano il linguaggio naturale e sono, quindi, molto più complesse da comprendere per i motori, rispetto a quelle generiche composte da poche parole-chiave.

Di conseguenza, man mano che il lavoro di Google sul NLP si intensifica e l’algoritmo integra sempre più criteri derivanti dal linguaggio naturale, diventa essenziale per i webmaster ottimizzare le proprie pagine tenendo conto di questi cambiamenti. Successivamente al lancio di BERT, gli esperti SEO hanno fornito raccomandazioni per adattare i contenuti a questa nuova situazione:

  • scrivere per gli utenti, anziché per i crawler;
  • conoscere meglio il proprio pubblico per rispondere in modo più appropriato alle sue aspettative;
  • semplificare la lingua e utilizzare un tono più colloquiale;
  • lavorare sul campo semantico della pagina per consolidare il contesto e aiutare l’algoritmo a comprendere le problematiche dell’argomento trattato.

Più recentemente, Google ha lanciato uno specifico strumento che integra il linguaggio naturale e aiuta gli utenti a estrarre informazioni da testi non strutturati. Questo sistema, chiamato tanto per non esagerare Google NLP, è un’API che permette di esaminare un contenuto testuale e ricavarne dati da utilizzare come parte di una strategia SEO. Google NLP dà un’idea di come e cosa l’algoritmo comprende di un testo, analizzandone le parole-chiave, la semantica, la sintassi, il senso generale e le “entità” (parole o frasi che rappresentano oggetti che possono essere identificati e classificati). Ecco un esempio dei risultati forniti dallo strumento:

Il principio è semplice: Google NLP consente di confrontare il risultato dell’analisi con le pagine che si posizionano in cima alla SERP e di applicare gli stessi principi durante l’ottimizzazione, ad esempio creando una determinata combinazione di parole-chiave che testimoniano una particolare intenzione da parte degli utenti di Internet. A parità di condizioni (in termini di criteri SEO), è teoricamente possibile beneficiare per il proprio contenuto di un ranking vicino alle pagine meglio posizionate da Google, purché soddisfino le aspettative del motore in termini di linguaggio naturale.

Un altro punto fondamentale da considerare sono i collegamenti, sia interni che esterni. Questi assumono una nuova dimensione alla luce del lavoro di Google sul NLP: più che mai, l’ottimizzazione SEO deve considerare il contesto della pagina per quanto riguarda il posizionamento dei link e la rilevanza degli anchor text. I collegamenti hanno il solo scopo di migliorare l’esperienza dell’utente, il che, d’altronde, non toglie nulla al loro peso SEO.

Insomma, meglio si comprende come funzionano Google e il NLP, più è possibile capire cosa si aspetta l’algoritmo dalle pagine Web più pertinenti: quelle che sceglierà di porre in evidenza per gli utenti. Ciò non mette in alcun modo in discussione l’importanza dei tradizionali fattori di ranking, ma tende ad accentuare il posto dato alla pertinenza, alla qualità dei contenuti, all’esperienza dell’utente e all’ottimizzazione dei vari formati dei contenuti (testi, immagini, video e file audio). È giunto il momento di mettersi al passo con il linguaggio naturale!

Articoli più recenti

Pubblicato il 28 Ottobre 2022

Google analytics: come funziona lo strumento di analisi gratuito di google?

Usa il nostro generatore di parole-chiave per trovare milioni di suggerimenti aggiornati, creare filtri e sottogruppi e migliorare la SEO.

Pubblicato il 28 Ottobre 2022

Struttura del sito web: le chiavi per dare al tuo sito l’architettura adatta

La struttura di un sito Web deve essere solida e progettata per gli utenti Internet. Ecco come realizzare l'architettura ideale per il tuo sito Web.

Pubblicato il 5 Ottobre 2022

Google cache: come visualizzare la cache di un sito web?

La cache di Google è la copia generata in un momento preciso di una pagina o di un sito Web, realizzata dai robot dei motori di ricerca.