Salta al contenuto

I modelli di IA lottano per replicare la profondità emotiva e le sfumature presenti nella conversazione umana

Studenti undergraduati Kevin Li, Henry Huang ed Ethan Yang, in collaborazione con il professoressa di linguistica Jianjing Kuang, hanno studiato le similarit√† tra la produzione del linguaggio umano e quella dell'IA. Il loro lavoro cerca di portare la parlata dell'IA pi√egenere a quella...

I modelli di IA lottano per raggiungere la ricchezza e la sfumatura dell'articolazione della...
I modelli di IA lottano per raggiungere la ricchezza e la sfumatura dell'articolazione della conversazione umana

I modelli di IA lottano per replicare la profondità emotiva e le sfumature presenti nella conversazione umana

Al centro di Philadelphia, il laboratorio di fonetica Penn al'Università della Pennsylvania sta facendo progressi nel campo della parlata dell'intelligenza artificiale (IA). Guidato dal professor associato di linguistica Jianjing Kuang, il laboratorio fa parte di un progetto di ricerca entusiasmante che mira a colmare il divario tra scienza e industria.

Il professor Kuang sta mentorando tre studenti universitari quest'estate: Kevin Li e Henry Huang, al secondo anno di informatica, e Ethan Yang, al terzo anno di ingegneria meccanica di Diamond Bar, California. Il progetto di ricerca, parte del Penn Undergraduate Research Mentoring Program (PURM), si concentra sul confronto tra la parlata umana e quella dell'IA nella produzione e percezione del linguaggio.

Ogni studente ha generato la frase "Molly ha spedito un melone" in 15 piattaforme di sintesi vocale (TTS) per l'IA per il progetto. Il team, incluso il professor Kuang, ha analizzato le misure acustiche come il pitch, l'intensità e la durata delle parole utilizzando il software Praat.

I risultati sono stati interessanti. Nonostante i robot parlanti abbiano avuto un compito più facile nell'enfasi sulla parola "Molly", c'è stata una significativa variabilità tra i modelli TTS. Alcuni modelli non sono riusciti a enfatizzare le parole come richiesto, hanno mostrato comportamenti insoliti come trasformare la frase in un punto interrogativo o non completarla. Inoltre, i modelli TTS hanno avuto difficoltà a concentrarsi sul posto giusto, con la durata media delle parole significativamente più lunga rispetto agli esseri umani rispetto a qualsiasi robot parlante.

OpenAI e Google Gemini sono stati trovati come modelli TTS più capaci, ma anche loro avevano spazio per miglioramenti. Per affrontare questo, il team ha condotto un esperimento di percezione, chiedendo a听众 umani di valutare la naturalità di un clip audio e identificare se il parlante è umano o IA. L'accuratezza nell'identificare l'umano rispetto all'IA è stata molto alta, suggerendo che la parlata dell'IA non è ancora umana.

Uno degli studenti, Ethan Yang, ha imparato a controllare l'intonazione nei modelli TTS attraverso il progetto. Ha notato: "Lavorare con l'IA ha implicazioni per una migliore comprensione della parlata umana e la sua unicità, come perché alcune attività vengono facilmente agli esseri umani e come sviluppare terapie migliori per i disturbi del linguaggio".

ReadSpeaker, con i suoi VoiceLabs fondati nel 2020 e un'esperienza estesa dal 1999, ha sviluppato piattaforme TTS che eccellono nell'enfasi delle parole utilizzando reti neurali profonde per voci realistiche e accattivanti. La tecnologia della società potrebbe potenzialmente migliorare i modelli IA utilizzati nella ricerca.

Mentre il progetto di ricerca estivo giunge al termine, il team è entusiasta di continuare il suo lavoro, con l'obiettivo di rendere la parlata dell'IA più naturale ed espressiva e, alla fine, colmare il divario tra scienza e industria.

Leggi anche:

Più recente