I modelli di IA lottano per replicare la profondità emotiva e le sfumature presenti nella conversazione umana
Al centro di Philadelphia, il laboratorio di fonetica Penn al'Università della Pennsylvania sta facendo progressi nel campo della parlata dell'intelligenza artificiale (IA). Guidato dal professor associato di linguistica Jianjing Kuang, il laboratorio fa parte di un progetto di ricerca entusiasmante che mira a colmare il divario tra scienza e industria.
Il professor Kuang sta mentorando tre studenti universitari quest'estate: Kevin Li e Henry Huang, al secondo anno di informatica, e Ethan Yang, al terzo anno di ingegneria meccanica di Diamond Bar, California. Il progetto di ricerca, parte del Penn Undergraduate Research Mentoring Program (PURM), si concentra sul confronto tra la parlata umana e quella dell'IA nella produzione e percezione del linguaggio.
Ogni studente ha generato la frase "Molly ha spedito un melone" in 15 piattaforme di sintesi vocale (TTS) per l'IA per il progetto. Il team, incluso il professor Kuang, ha analizzato le misure acustiche come il pitch, l'intensità e la durata delle parole utilizzando il software Praat.
I risultati sono stati interessanti. Nonostante i robot parlanti abbiano avuto un compito più facile nell'enfasi sulla parola "Molly", c'è stata una significativa variabilità tra i modelli TTS. Alcuni modelli non sono riusciti a enfatizzare le parole come richiesto, hanno mostrato comportamenti insoliti come trasformare la frase in un punto interrogativo o non completarla. Inoltre, i modelli TTS hanno avuto difficoltà a concentrarsi sul posto giusto, con la durata media delle parole significativamente più lunga rispetto agli esseri umani rispetto a qualsiasi robot parlante.
OpenAI e Google Gemini sono stati trovati come modelli TTS più capaci, ma anche loro avevano spazio per miglioramenti. Per affrontare questo, il team ha condotto un esperimento di percezione, chiedendo a听众 umani di valutare la naturalità di un clip audio e identificare se il parlante è umano o IA. L'accuratezza nell'identificare l'umano rispetto all'IA è stata molto alta, suggerendo che la parlata dell'IA non è ancora umana.
Uno degli studenti, Ethan Yang, ha imparato a controllare l'intonazione nei modelli TTS attraverso il progetto. Ha notato: "Lavorare con l'IA ha implicazioni per una migliore comprensione della parlata umana e la sua unicità, come perché alcune attività vengono facilmente agli esseri umani e come sviluppare terapie migliori per i disturbi del linguaggio".
ReadSpeaker, con i suoi VoiceLabs fondati nel 2020 e un'esperienza estesa dal 1999, ha sviluppato piattaforme TTS che eccellono nell'enfasi delle parole utilizzando reti neurali profonde per voci realistiche e accattivanti. La tecnologia della società potrebbe potenzialmente migliorare i modelli IA utilizzati nella ricerca.
Mentre il progetto di ricerca estivo giunge al termine, il team è entusiasta di continuare il suo lavoro, con l'obiettivo di rendere la parlata dell'IA più naturale ed espressiva e, alla fine, colmare il divario tra scienza e industria.
Leggi anche:
- La fondazione dell'industrializzazione in Europa può dipendere dall'elettricità
- L'orologio misterioso Cartier di fascia alta si aspetta di vendere per oltre 6 milioni di dollari all'asta autunnale
- La più importante pubblicazione sportiva portoghese A BOLA fornirà copertura esclusiva per il Summit SBC, promette contenuti sportivi di alta qualità
- Esplorare le prospettive industriali del silicio nell'economia globale!