Fuga di dati da Google, esposti 14.000 risultati

Violate 2.500 pagine di documentazione interna del colosso tech. E' il primo leak di questo tipo sul suo super segreto algoritmo di ricerca, l'arbitro più potente di Internet. Google mente?

L’algoritmo di ricerca di Google è forse il sistema più influente su internet, determinando quali siti vivono e muoiono e come appare il contenuto sul web. Ma come esattamente Google classifica i siti web è stato a lungo un mistero, che cercano di scoprire giornalisti, ricercatori e persone che lavorano nell’ottimizzazione dei motori di ricerca.

Ora, una fuga di notizie esplosiva che sembra mostrare migliaia di pagine di documenti interni offre uno sguardo senza precedenti su come funziona Search e suggerisce che Google per anni non è stato completamente onesto a questo riguardo. Finora, Google non ha risposto a molteplici richieste di commento sulla legittimità dei documenti.

Rand Fishkin, che ha lavorato nel SEO per più di un decennio, afferma che una fonte ha condiviso con lui 2.500 pagine di documenti nella speranza che la divulgazione della fuga di notizie avrebbe contrastato le “bugie” che i dipendenti di Google avevano condiviso su come funziona l’algoritmo di ricerca. I documenti delineano l’API di ricerca di Google e spiegano quali informazioni sono disponibili per i dipendenti, secondo Fishkin.

I dettagli condivisi da Fishkin sono densi e tecnici, probabilmente più comprensibili per sviluppatori ed esperti SEO che per la gente comune. I contenuti della fuga di notizie non sono necessariamente una prova che Google utilizzi i dati specifici e i segnali menzionati per le classifiche di ricerca. Piuttosto, la fuga di notizie descrive quali dati Google raccoglie dalle pagine web, dai siti e dai ricercatori e offre indizi indiretti agli esperti SEO su ciò che sembra interessare a Google, come ha scritto l’esperto SEO Mike King nella sua panoramica dei documenti.

I documenti trapelati trattano argomenti come il tipo di dati che Google raccoglie e utilizza, quali siti Google favorisce per argomenti sensibili come le elezioni, come Google gestisce i piccoli siti web e altro ancora. Alcune informazioni nei documenti sembrano essere in conflitto con le dichiarazioni pubbliche dei rappresentanti di Google, secondo Fishkin e King.

“[Mentire] è una parola dura, ma è l’unica accurata da usare qui,” scrive King. “Mentre non necessariamente biasimo i rappresentanti pubblici di Google per proteggere le loro informazioni proprietarie, trovo problematica la loro intenzione di screditare attivamente persone nel mondo del marketing, della tecnologia e del giornalismo che hanno presentato scoperte riproducibili”.

Google non ha risposto alle richieste di commento di The Verge riguardo ai documenti, inclusa una richiesta diretta di smentire la loro legittimità. Fishkin ha detto a The Verge in un’email che l’azienda non ha contestato la veridicità della fuga di notizie, ma che un dipendente gli ha chiesto di cambiare alcune parole nel post riguardanti come un evento era stato caratterizzato.

L’algoritmo di ricerca segreto di Google ha dato vita a un’intera industria di marketer che seguono attentamente le linee guida pubbliche di Google e le eseguono per milioni di aziende in tutto il mondo. Le tattiche pervasive, spesso fastidiose, hanno portato a una narrazione generale che i risultati di Google Search stiano peggiorando, affollati di spazzatura che gli operatori dei siti web si sentono obbligati a produrre per far vedere i loro siti. In risposta ai precedenti reportage di The Verge sulle tattiche guidate dall’SEO, i rappresentanti di Google spesso si rifugiano in una difesa ormai nota: non è ciò che dicono le linee guida di Google.

Ma alcuni dettagli nei documenti trapelati mettono in discussione l’accuratezza delle dichiarazioni pubbliche di Google riguardo al funzionamento di Search.

Un esempio citato da Fishkin e King è se i dati di Google Chrome siano utilizzati o meno nel ranking. I rappresentanti di Google hanno ripetutamente indicato che non utilizzano i dati di Chrome per classificare le pagine, ma Chrome è specificamente menzionato in sezioni su come i siti web appaiono in Search.

Fonte: The Verge

***

di Barry Schwartz

Rand Fishkin insieme a Mike King potrebbero aver pubblicato una delle più grandi fughe di dati al di fuori delle rivelazioni del Dipartimento di Giustizia riguardanti Google Search e le sue funzionalità interne di classificazione e segnali.

Il documento proveniva da una fonte anonima (non più anonima, vedi sotto) ma verificata da Rand Fishkin e contiene una miriade di dettagli su come funziona presumibilmente Google Search.

An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them

Ancora più importante, sembra contraddire numerose dichiarazioni di Google fatte negli ultimi due decenni da vari dipendenti di Google Search, come ho trattato qui nel passato.

Non ho ancora esaminato tutto, ma ritenevo fosse importante che tutti voi lo leggeste voi stessi. Potete vedere i dettagli a questi titoli:

Rand ha scritto: “Molte delle loro affermazioni contraddicono direttamente le dichiarazioni pubbliche fatte dai dipendenti di Google nel corso degli anni, in particolare la ripetuta negazione dell’azienda che vengano utilizzati segnali utente centrati sui clic, la negazione che i sottodomini siano considerati separatamente nelle classifiche, la negazione di una sandbox per i nuovi siti web, la negazione che l’età di un dominio sia raccolta o considerata, e altro ancora.”

Mike King ha scritto: “Ho esaminato i documenti di riferimento API e li ho contestualizzati con alcune altre fughe di dati precedenti di Google e la testimonianza antitrust del DOJ. Sto combinando questo con l’ampia ricerca su brevetti e documenti tecnici svolta per il mio prossimo libro, The Science of SEO. Sebbene non ci siano dettagli sulle funzioni di scoring di Google nella documentazione che ho esaminato, c’è una grande quantità di informazioni sui dati memorizzati per i contenuti, i link e le interazioni degli utenti. Ci sono anche vari gradi di descrizioni (che vanno da deludentemente scarse a sorprendentemente rivelatrici) delle funzionalità manipolate e memorizzate. Sarebbe tentato chiamarle “fattori di ranking”, ma sarebbe impreciso.”

Aleyda Solis ha un rapido riassunto su X dove ha riassunto parte della fuga di dati:

  • Ci sono 14.000 funzionalità di ranking e altro nei documenti
  • Google ha una funzionalità che calcolano chiamata “siteAuthority”
  • Navboost ha un modulo specifico interamente focalizzato sui segnali di clic che rappresentano gli utenti come elettori e i loro clic sono memorizzati come voti
  • Google memorizza quale risultato ha il clic più lungo durante la sessione
  • Google ha un attributo chiamato hostAge che viene utilizzato specificamente “per sandboxare lo spam fresco nel tempo di servizio”
  • Uno dei moduli relativi ai punteggi di qualità della pagina presenta una misura a livello di sito delle visualizzazioni da Chrome

Non ho ancora avuto tempo di esaminare tutto, lo farò nei prossimi giorni.

Non ho nemmeno visto alcun dipendente di Google commentare pubblicamente su questo ancora – so che è nuovo e non so se vedremo qualche commento da parte loro.

Questo mi ricorda un po’ la fuga di dati sul ranking di Yandex.

Aggiornamento: Google ha confermato con me che la fuga di dati è reale ma ha esortato a essere cauti nel fare supposizioni su come e se Google utilizza ciò che è contenuto in questi documenti. Google mi ha detto:

“Avvertiamo contro il fare supposizioni inaccurate su Search basate su informazioni fuori contesto, obsolete o incomplete. Abbiamo condiviso informazioni approfondite su come funziona Search e sui tipi di fattori che i nostri sistemi valutano, cercando al contempo di proteggere l’integrità dei nostri risultati dalla manipolazione.”

Fonte: Report: 14,000+ Google Search Ranking Features Leaked

Tag

Partecipa alla discussione