L'intelligenza artificiale, indipendentemente dalla sua molteplicità di lingue, tende a perpetuare i pregiudizi esistenti.
In una ricerca pionieristica presentata al 2025 Convegno Annuale del Capitolo delle Nazioni del Nord America dell'Associazione per la Linguistica Computazionale, i ricercatori del gruppo di Elaborazione del Linguaggio e dei Media dell'Università Johns Hopkins hanno espresso preoccupazioni sullo stato attuale dei modelli di apprendimento linguistico multilingue (LLM). I ricercatori, guidati da Nikhil Sharma, hanno etichettato questi modelli come "falsi poliglotti", sostenendo che non riescono a superare le barriere linguistiche e invece tengono gli utenti intrappolati in bolle di filtro linguistiche.
La ricerca, che ha analizzato articoli scritti in lingue ad alto rendimento come l'inglese, il cinese e il tedesco, nonché in lingue a basso rendimento come l'hindi e l'arabo, ha rilevato che le informazioni sull'IA sui conflitti internazionali sono viziate. I ricercatori hanno illustrato questo attraverso un'ipotesi di scenario in cui un utente che parla hindi e un utente che parla cinese avrebbero ricevuto risposte plasmate dalle rispettive prospettive dei loro paesi in una discussione sulla disputa di confine India-Cina in corso da tempo.
I ricercatori avvertono che questo pregiudizio è il risultato dei modelli LLM che generano risposte in base alle informazioni delle lingue ad alto rendimento quando non è disponibile alcun articolo nella lingua della query, un evento comune per i parlanti di lingue a basso rendimento. Questa tendenza, che i ricercatori etichettano come imperialismo linguistico, potrebbe peggiorare la divisione linguistica digitale.
Per affrontare questi problemi, i ricercatori intendono creare un benchmark dinamico e set di dati per guidare lo sviluppo futuro dei modelli e mitigare la disparità di informazioni nei modelli LLM. Incoraggiano la comunità di ricerca più ampia a esplorare gli effetti di diverse strategie di addestramento del modello, miscele di dati e architetture di generazione assistite dal recupero.
La squadra raccomanda inoltre di raccogliere prospettive diverse da più lingue, emettere avvertimenti agli utenti che potrebbero cadere in un comportamento di query-risposta confermativo e sviluppare programmi per aumentare l'alfabetizzazione informativa sulla ricerca conversazionale per ridurre la eccessiva fiducia e dipendenza dagli LLM.
Inoltre, i ricercatori avvertono che il potere concentrato sulle tecnologie dell'IA comporta rischi sostanziali. Questo potere consente a poche persone o aziende di manipolare il flusso delle informazioni, facilitando la persuasione di massa, diminuendo la credibilità di questi sistemi e peggiorando la diffusione delle informazioni errate.
Per dimostrare i loro punti, i ricercatori hanno creato due set di articoli falsi, uno con informazioni "veritiere" e uno con informazioni alternative e in conflitto. Hanno chiesto ai modelli LLM di vari sviluppatori di rispondere alle query su questi articoli e hanno scoperto che gli strumenti AI preferiscono le informazioni nella stessa lingua della domanda. Ad esempio, un utente arabo, senza documenti in arabo sul conflitto, riceverebbe risposte dalla prospettiva americana in inglese perché è la lingua ad alto rendimento.
La ricerca ha anche rilevato che l'inglese domina nelle informazioni generate dall'IA, una tendenza che i ricercatori credono debba essere affrontata per garantire che gli utenti, indipendentemente dalla loro lingua e background, ricevano le stesse informazioni. I risultati dei ricercatori sottolineano la necessità di un approccio più inclusivo e equo allo sviluppo dell'IA per superare la divisione linguistica digitale.
Leggi anche:
- Ricostruttiamo i macrofagi umani con impulsi elettrici per accelerare la guarigione delle ferite
- Definizione di un nuovo caso: mappatura dell'attività cerebrale durante il processo decisionale
- Le soluzioni per l'autismo anticipate questo mese, lasciando i sostenitori preoccupati in mezzo al tumulto all'interno delle organizzazioni di salute pubblica
- Prodotti biologici autentici contro etichette false