Negli ultimi anni, i creatori di sistemi di intelligenza artificiale hanno fatto largo uso di enormi quantità di testo, immagini e video reperiti online per addestrare i loro modelli. Tuttavia, questa fonte di dati sembra ora in via di esaurimento.
Uno studio recente della Data Provenance Initiative, guidata dal MIT, ha rivelato che molte delle principali fonti web utilizzate per l’addestramento dell’IA hanno iniziato a limitare l’accesso ai propri dati. Questo studio, che ha analizzato 14.000 domini web inclusi in tre set di dati di addestramento, evidenzia una “crisi emergente nel consenso”, con editori e piattaforme che adottano misure per impedire la raccolta dei loro dati.
Secondo i ricercatori, nei tre set di dati principali – C4, RefinedWeb e Dolma – il 5% di tutti i dati e il 25% dei dati di qualità più elevata sono stati limitati. Queste restrizioni sono impostate tramite il Robots Exclusion Protocol, un sistema che utilizza il file robots.txt per impedire ai bot di scansionare le pagine web.
In particolare, fino al 45% dei dati nel set C4 è stato limitato dai termini di servizio dei siti web. Shayne Longpre, autore principale dello studio, ha sottolineato che questa diminuzione del consenso all’utilizzo dei dati avrà ripercussioni non solo sulle aziende di intelligenza artificiale, ma anche su ricercatori, accademici ed enti non commerciali.
I dati sono fondamentali per gli attuali sistemi di intelligenza artificiale generativa, come ChatGPT di OpenAI, Gemini di Google e Claude di Anthropic, che utilizzano miliardi di esempi di testo, immagini e video per migliorare le loro prestazioni. Più dati di alta qualità vengono utilizzati, migliori sono i risultati ottenuti da questi modelli.

In passato, gli sviluppatori di IA hanno raccolto dati abbastanza facilmente. Tuttavia, il recente boom dell’IA generativa ha innescato tensioni con i proprietari dei dati, molti dei quali sono contrari all’uso dei loro contenuti senza compenso.
Di fronte a queste preoccupazioni, alcuni editori hanno introdotto paywall o modificato i termini di servizio per limitare l’uso dei loro dati per l’addestramento dell’IA. Altri hanno bloccato i web crawler utilizzati da aziende come OpenAI, Anthropic e Google. Reddit e StackOverflow, ad esempio, ora fanno pagare l’accesso ai loro dati, mentre il New York Times ha citato in giudizio OpenAI e Microsoft per violazione del copyright.
Le grandi aziende di intelligenza artificiale come OpenAI, Google e Meta hanno adottato varie strategie per raccogliere dati, inclusa la trascrizione di video di YouTube e la modifica delle loro politiche sui dati. Alcune hanno stipulato accordi con editori come The Associated Press e News Corp per garantire l’accesso ai loro contenuti. Tuttavia, le restrizioni sui dati rappresentano una minaccia per il continuo sviluppo dei modelli di intelligenza artificiale.
Le restrizioni sui dati colpiscono anche ricercatori e piccole organizzazioni di IA, che spesso si affidano a set di dati pubblici e non possono permettersi di pagare per ottenere dati direttamente dagli editori. Common Crawl, un set di dati che comprende miliardi di pagine web, è stato citato in oltre 10.000 studi accademici.
Mentre alcune aziende di IA affermano che il loro utilizzo di dati web pubblici è protetto dal fair use, raccogliere nuovi dati sta diventando sempre più difficile. Alcuni dirigenti temono di raggiungere un “data wall”, ossia il punto in cui tutti i dati disponibili su Internet sono stati esauriti o sono bloccati dietro paywall.
Per superare queste difficoltà, alcune aziende stanno esplorando l’uso di dati sintetici generati da sistemi di IA, ma molti ricercatori dubitano che tali dati possano sostituire quelli creati dall’uomo. Inoltre, le restrizioni nei file robots.txt non sono legalmente vincolanti e la loro osservanza è volontaria.
Shayne Longpre ha sottolineato la necessità di nuovi strumenti che permettano ai proprietari di siti web di controllare in modo più preciso l’uso dei loro dati, distinguendo tra usi commerciali e non-profit. Yacine Jernite di Hugging Face ha descritto la crisi del consenso come una reazione naturale alle pratiche aggressive di raccolta dati da parte dell’industria dell’IA, mentre Stella Biderman di EleutherAI ha espresso preoccupazione per l’esclusione di ricercatori e piccole start-up dalla governance della tecnologia.
Le aziende di intelligenza artificiale hanno sfruttato il web come una fonte inesauribile di dati per anni, ma con l’aumento delle restrizioni, dovranno trovare nuove soluzioni per continuare a sviluppare i loro modelli.


