L'avanguardia del gioco d'azzardo — I prodotti tecnologici più innovativi

I modelli di IA lottano per replicare la profondità emotiva e le sfumature presenti nella conversazione umana

Studenti undergraduati Kevin Li, Henry Huang ed Ethan Yang, in collaborazione con il professoressa di linguistica Jianjing Kuang, hanno studiato le similarit√† tra la produzione del linguaggio umano e quella dell'IA. Il loro lavoro cerca di portare la parlata dell'IA pi√egenere a quella...

, and Administrator

2025 settembre 15 . 11:25 AM

2 minuti

I modelli di IA lottano per raggiungere la ricchezza e la sfumatura dell'articolazione della... — I modelli di IA lottano per raggiungere la ricchezza e la sfumatura dell'articolazione della conversazione umana

I modelli di IA lottano per replicare la profondità emotiva e le sfumature presenti nella conversazione umana

Al centro di Philadelphia, il laboratorio di fonetica Penn al'Università della Pennsylvania sta facendo progressi nel campo della parlata dell'intelligenza artificiale (IA). Guidato dal professor associato di linguistica Jianjing Kuang, il laboratorio fa parte di un progetto di ricerca entusiasmante che mira a colmare il divario tra scienza e industria.

Il professor Kuang sta mentorando tre studenti universitari quest'estate: Kevin Li e Henry Huang, al secondo anno di informatica, e Ethan Yang, al terzo anno di ingegneria meccanica di Diamond Bar, California. Il progetto di ricerca, parte del Penn Undergraduate Research Mentoring Program (PURM), si concentra sul confronto tra la parlata umana e quella dell'IA nella produzione e percezione del linguaggio.

Ogni studente ha generato la frase "Molly ha spedito un melone" in 15 piattaforme di sintesi vocale (TTS) per l'IA per il progetto. Il team, incluso il professor Kuang, ha analizzato le misure acustiche come il pitch, l'intensità e la durata delle parole utilizzando il software Praat.

I risultati sono stati interessanti. Nonostante i robot parlanti abbiano avuto un compito più facile nell'enfasi sulla parola "Molly", c'è stata una significativa variabilità tra i modelli TTS. Alcuni modelli non sono riusciti a enfatizzare le parole come richiesto, hanno mostrato comportamenti insoliti come trasformare la frase in un punto interrogativo o non completarla. Inoltre, i modelli TTS hanno avuto difficoltà a concentrarsi sul posto giusto, con la durata media delle parole significativamente più lunga rispetto agli esseri umani rispetto a qualsiasi robot parlante.

OpenAI e Google Gemini sono stati trovati come modelli TTS più capaci, ma anche loro avevano spazio per miglioramenti. Per affrontare questo, il team ha condotto un esperimento di percezione, chiedendo a听众 umani di valutare la naturalità di un clip audio e identificare se il parlante è umano o IA. L'accuratezza nell'identificare l'umano rispetto all'IA è stata molto alta, suggerendo che la parlata dell'IA non è ancora umana.

Uno degli studenti, Ethan Yang, ha imparato a controllare l'intonazione nei modelli TTS attraverso il progetto. Ha notato: "Lavorare con l'IA ha implicazioni per una migliore comprensione della parlata umana e la sua unicità, come perché alcune attività vengono facilmente agli esseri umani e come sviluppare terapie migliori per i disturbi del linguaggio".

ReadSpeaker, con i suoi VoiceLabs fondati nel 2020 e un'esperienza estesa dal 1999, ha sviluppato piattaforme TTS che eccellono nell'enfasi delle parole utilizzando reti neurali profonde per voci realistiche e accattivanti. La tecnologia della società potrebbe potenzialmente migliorare i modelli IA utilizzati nella ricerca.

Mentre il progetto di ricerca estivo giunge al termine, il team è entusiasta di continuare il suo lavoro, con l'obiettivo di rendere la parlata dell'IA più naturale ed espressiva e, alla fine, colmare il divario tra scienza e industria.

Più recente

In questa foto posso vedere una pistola sul libro e posso vedere il testo sui fogli.

All about big wins.

Nuovo rapporto individua le cause e le soluzioni per il crimine giovanile a DC

Un nuovo studio sulla violenza giovanile a D.C. indica modi per ridurre i crimini giovanili.

, and Administrator

2025 dicembre 24

In questa immagine si può vedere una persona che gioca a calcio.

Incontriamo i volti del mondo del casinò

Ribelli Uniti: Come Rachid Mekhloufi ha rinunciato a una Coppa del Mondo - e ha guadagnato due nazionalità

Rachid Mekhloufi ha rinunciato a giocare al Mondiale del 1958 per la Francia per combattere per l'indipendenza dell'Algeria in uno dei gesti più altruisti della storia del calcio

, and Administrator

2025 dicembre 24

Nella foto ci sono tre persone che promuovono il telefono cellulare della società LG, in background...

All about lotteries.

L'esplosione degli eSports nel Sud-est asiatico: come l'Indonesia e le Filippine stanno guidando il gaming competitivo

Un'analisi di come l'Indonesia e le Filippine sono diventate importanti hub degli eSports nel Sud-est asiatico

, and Administrator

2025 dicembre 24

Nell'immagine c'è un libro con carri armati e jeep, sembra una guerra insieme a un testo sopra di...

All about big wins.

L'India avverte il Pakistan contro il ricatto nucleare, dice il CDS Gen Anil Chauhan...

In occasione del 100° anniversario del Servizio Infermieristico Militare, il CDS Gen Anil Chauhan ha avvertito che l'India non si lascerà intimidire dal ricatto nucleare, sottolineando la necessità di prepararsi per la contaminazione radiologica e le minacce biologiche. Ha ribadito la posizione...

, and Administrator

2025 dicembre 24

I modelli di IA lottano per replicare la profondità emotiva e le sfumature presenti nella conversazione umana

I modelli di IA lottano per replicare la profondità emotiva e le sfumature presenti nella conversazione umana

Leggi anche:

Imparentato

Più recente