- cross-posted to:
- technology@lemmy.ml
- cross-posted to:
- technology@lemmy.ml
Google ha ora l’esclusiva su tutti i contenuti di Reddit che non potranno più essere indicizzati da altri motori di ricerca e chatbot. Mi sembra un bel colpo per Google e uno decisamente brutto per gli altri motori di ricerca visto che:
- su Reddit si trova una quantità enorme di informazioni/soluzioni a problemi di qualunque tipo (ed ecco perché non è una buona idea lasciare tutto questo potere/sapere a una singola società privata)
- la ricerca interna di Reddit è terribile
Reddit sta aumentando il suo giro di vite sui web crawler. Nelle ultime settimane, Reddit ha iniziato a bloccare i motori di ricerca dalla visualizzazione di post e commenti recenti, a meno che il motore di ricerca non paghi, secondo quanto riportato da 404 Media.
Al momento, Google è l’unico motore di ricerca mainstream che mostra risultati recenti quando si cercano post su Reddit usando il trucco “site:reddit.com”, riporta 404 Media. Questo esclude Bing, DuckDuckGo e altre alternative, probabilmente perché Google ha concluso un accordo da 60 milioni di dollari che le consente di addestrare i suoi modelli di intelligenza artificiale sui contenuti di Reddit.
“Questo non è assolutamente legato alla nostra recente partnership con Google”, ha dichiarato il portavoce di Reddit Tim Rathschmidt in una dichiarazione a The Verge. “Abbiamo discusso con diversi motori di ricerca. Non siamo stati in grado di raggiungere accordi con tutti loro, poiché alcuni non sono in grado o non sono disposti a fare promesse esecutive per quanto riguarda l’uso dei contenuti di Reddit, compreso l’uso per l’IA”.
Il mese scorso, per far rispettare la sua politica contro lo scraping, Reddit ha aggiornato il file robots.txt del sito, che indica ai web crawler se possono accedere a un sito. “È un segnale per coloro che non hanno un accordo con noi che non dovrebbero accedere ai dati di Reddit”, ha dichiarato Ben Lee, responsabile legale di Reddit, al collega Alex Heath di Command Line.
In una dichiarazione rilasciata a The Verge, la portavoce di Microsoft Caitlin Roulston ha affermato: “Microsoft rispetta lo standard robots.txt e onoriamo le indicazioni fornite dai siti web che non vogliono che i contenuti delle loro pagine siano utilizzati con i nostri modelli di intelligenza artificiale generativa”, aggiungendo che Bing ha smesso di effettuare il crawling di Reddit quando la piattaforma ha aggiornato il suo file robots.txt il 1° luglio.