Uno studio rivela le ragioni delle false invenzioni dei modelli linguistici
Nel mondo in rapido sviluppo dell'intelligenza artificiale (AI), una serie di rivelazioni e studi hanno gettato luce su un problema persistente: le allucinazioni AI.
Il 29 maggio 2025, Anthropic ha rilasciato un corso completo di ingegneria delle domande gratuito, con l'obiettivo di affrontare alcuni dei problemi nello sviluppo dell'AI. Nello stesso mese, uno studio ha rivelato che una risposta AI su cinque per la strategia PPC contiene inesattezze, evidenziando l'urgenza di miglioramenti.
Il 4 settembre 2025, i ricercatori di OpenAI e Georgia Tech hanno pubblicato uno studio rivoluzionario intitolato "Perché i modelli linguistici allucinano". Il team, che includeva Adam Tauman Kalai, Ofir Nachum, Edwin Zhang e Santosh S. Vempala di Georgia Tech, ha fornito le fondamenta matematiche per capire perché le allucinazioni persistono nonostante i significativi progressi tecnologici.
I ricercatori hanno dimostrato che le "falsità plausibili" emergono attraverso pressioni statistiche prevedibili durante l'addestramento del modello. Hanno anche scoperto che i tassi di allucinazione correlano con i fatti singoli - informazioni che appaiono esattamente una volta nei dati di addestramento.
I sistemi di valutazione binari, che assegnano il punteggio completo per le risposte corrette senza riconoscere l'espressione dell'incertezza, creano problemi persistenti per la affidabilità dell'AI. Questo, unito al fatto che quasi tutte le principali valutazioni utilizzano schemi di voto binari, come rivelato dallo studio, è stata una preoccupazione maggiore.
Per affrontare questo problema, lo studio propone obiettivi di fiducia espliciti all'interno delle istruzioni di valutazione come potenziale soluzione. Ciò potrebbe ridefinire come l'industria del marketing si avvicina alla valutazione e alle strategie di implementazione dell'affidabilità dell'AI.
La concorrenza tra i fornitori di AI aggiunge complessità per i team di marketing che valutano diverse piattaforme. Tuttavia, alcune aziende come Gracenote hanno lanciato sistemi specializzati per prevenire le allucinazioni AI nei contenuti dell'intrattenimento.
Il CEO di Salesforce, Marc Benioff, afferma che l'AI della sua azienda offre "la più alta accuratezza, il più basso tasso di allucinazione". Nel frattempo, la ricerca di Stanford esamina le lacune nella valutazione che minacciano le rivendicazioni di produttività dell'AI, sottolineando la necessità di quadri di valutazione più robusti.
Per affrontare queste lacune, iPullRank ha rilasciato una guida completa per l'ottimizzazione della ricerca AI il 29 agosto 2025. La guida affronta i cambiamenti fondamentali nella scoperta dei contenuti.
Il browser Brave, noto per la sua attenzione alla privacy, ha introdotto la tecnologia di ancoraggio AI per verificare le risposte contro i dati web in tempo reale, un altro passo verso il miglioramento dell'affidabilità dell'AI.
Mentre l'industria si confronta con questi problemi, le tecniche di ingegneria delle domande sofisticate diventano essenziali per l'efficacia professionale nell'uso dell'AI. Le riforme della valutazione proposte potrebbero avere un impatto significativo su come i team di marketing misurano e ottimizzano le implementazioni dell'AI.
Tuttavia, è importante notare che i risultati della ricerca non forniscono informazioni specifiche sugli autori coinvolti nello studio "Warum Sprachmodelle halluzinieren" di OpenAI. Tuttavia, lo studio fa parte della ricerca più ampia di OpenAI sui modelli linguistici, come discuss
Leggi anche:
- Conoscere il bonsai di ginepro: modellare e mantenere una specie di albero senza tempo
- Utilizzo delle reti generative avversarie (GAN) nelle campagne politiche
- Sfruttare il potere industriale del silicio per opportunità mondiali!
- Miglioramento del dialogo interattivo attraverso tecnologie di riconoscimento e sintesi vocale