Salta al contenuto

I modelli di IA lottano per replicare le sfumature e la profondità dell'espressività del linguaggio umano

Studenti universitari Kevin Li, Henry Huang ed Ethan Yang hanno collaborato con il professor Jianjing Kuang di linguistica per esaminare la parità tra la produzione e la comprensione del linguaggio umano e artificiale. La ricerca mira ad aiutare le imprese a sviluppare capacità di linguaggio...

I modelli dell'intelligenza artificiale lottano per corrispondere alla vasta gamma di espressioni...
I modelli dell'intelligenza artificiale lottano per corrispondere alla vasta gamma di espressioni verbali umane

I modelli di IA lottano per replicare le sfumature e la profondità dell'espressività del linguaggio umano

Nel cuore di Philadelphia, il laboratorio di fonetica dell'Università della Pennsylvania, noto come Penn Phonetics Laboratory, è stato animato dall'entusiasmo di un team di studenti universitari dediti a un progetto di ricerca che confronta il discorso umano e quello dell'IA. Il progetto, guidato dal professor associato Jianjing Kuang e seguito da lei, fa parte del programma di mentoring della ricerca universitaria di Penn (Penn Undergraduate Research Mentoring Program - PURM).

Il team, composto da Ethan Yang, studente di ingegneria meccanica del terzo anno, Henry Huang di Shenzhen, in Cina, e Kevin Li di Kansas City, nel Kansas, si è prefissato l'obiettivo di colmare il divario tra scienza e industria, indagando le sfumature del discorso umano e le sue caratteristiche uniche. Questa ricerca potrebbe avere importanti implicazioni per la comprensione di perché alcune attività ci vengono facili e per lo sviluppo di terapie migliori per i disturbi del linguaggio.

Gli studenti si sono concentrati sui modelli di Text-to-Speech (TTS), con Yang che ha imparato a controllare l'intonazione in questi modelli. Per condurre la loro ricerca, hanno generato la frase "Molly ha spedito un melone" in 15 piattaforme di sintesi vocale dell'IA.

Il team ha utilizzato il software Praat per analizzare le misure acustiche come il pitch, l'intensità e la durata delle parole. I loro risultati hanno rivelato una notevole discrepanza tra il discorso umano e quello generato dall'IA. Ad esempio, la durata media delle parole "spedito" era significativamente più lunga nell'uomo che in qualsiasi robot del discorso.

Inoltre, gli studenti hanno trovato "enorme variabilità tra i modelli". Alcuni modelli hanno enfatizzato più di una parola, hanno trasformato la frase in un punto interrogativo o non hanno finito la frase. D'altra parte, i robot del discorso avevano un compito più facile nell'enfasi su "Molly" rispetto alle parole più avanti nella frase.

Per confrontare il discorso generato dall'IA con quello umano, il team ha anche catturato l'audio dei volontari umani. Quando si trattava di concentrarsi sul posto giusto nelle parole, la maggior parte dei modelli TTS non riusciva a eguagliare la produzione umana.

L'accuratezza nell'identificare l'umano rispetto all'IA in un esperimento di percezione era molto alta, suggerendo che il discorso dell'IA non è ancora umano. Tuttavia, Kuang sottolinea che l'IA ha bisogno della loro conoscenza per capire quanto sia buono il modello e per aiutarci a raggiungere un discorso dell'IA truly natural and expressive.

Questo progetto di ricerca non solo offre agli studenti un'esperienza di apprendimento preziosa, ma contribuisce anche alla comprensione più ampia dell'IA e del suo potenziale nel campo della produzione e della percezione del discorso. Man mano che questa ricerca pionieristica prosegue, possiamo aspettarci di vedere i passi avanti che questi studenti e il loro mentore faranno nel campo dell'IA e del discorso.

Leggi anche:

Più recente