Salta al contenuto

La tecnologia di punta dell'IA di Microsoft può trasformare il testo semplice in un podcast di alta qualità, lasciando molti impressionati.

Microsoft continua nella sua ricerca di supremazia nell'IA assolutistica, con il verificarsi di un progetto open source denominato VibeVoice. Questa innovazione di sintesi vocale è in grado di creare un'audio simile a una conversazione con diverse voci, anche simulando un podcast.

La tecnologia di intelligenza artificiale innovativa di Microsoft trasforma il testo in podcast di...
La tecnologia di intelligenza artificiale innovativa di Microsoft trasforma il testo in podcast di alta qualità, lasciando gli utenti stupiti dalle sue capacità impressionanti.

La tecnologia di punta dell'IA di Microsoft può trasformare il testo semplice in un podcast di alta qualità, lasciando molti impressionati.

Microsoft ha recentemente presentato un progetto open source emozionante chiamato VibeVoice. Questa tecnologia innovativa è stata progettata per generare audio conversazionale espressivo, di lunga durata e con più voci.

VibeVoice affronta alcune delle sfide dei tradizionali sistemi di sintesi vocale (TTS), tra cui scalabilità, coerenza del parlante e turn-taking naturale. Rappresenta un importante passo avanti nel campo della voce generata dall'IA.

Il progetto è disponibile su Hugging Face e ulteriori informazioni dettagliate, comprese le istruzioni per l'installazione locale, sono disponibili sul suo repository GitHub. VibeVoice è anche disponibile online per coloro che preferiscono non installarlo localmente.

Una delle principali caratteristiche di VibeVoice è la sua capacità di gestire l'emozione nel parlato. Può parlare in più lingue, attualmente limitate all'inglese e al mandarino. Il modello può sintetizzare il parlato fino a 90 minuti con fino a 4 parlanti distinti.

Una versione più leggera di VibeVoice, con 0,5 miliardi di parametri, è stata progettata per la generazione audio in tempo reale. Ciò la rende uno strumento promettente per la creazione di podcast generati dall'IA, voiceover per video e persino l'integrazione con gli assistenti vocali.

Per coloro che sono interessati a esempi avanzati, la pagina del progetto VibeVoice mostra più parlanti e dimostra sia le capacità in inglese che in mandarino.

VibeVoice non è solo uno strumento per il divertimento; può anche essere utilizzato come strumento di accessibilità. Con la sua capacità di generare file audio a più voci, ha il potenziale per essere un'aggiunta utile agli assistenti vocali, rendendo le interazioni più naturali e coinvolgenti.

Il modello VibeVoice, quando eseguito localmente, utilizza circa 7 GB di VRAM per il modello più piccolo e fino a 18 GB per quello più grande. Al contrario, la versione audio in streaming richiede meno risorse di calcolo.

Microsoft ha rilasciato diverse versioni di VibeVoice per i test, tra cui una versione con 1,5 miliardi di parametri e una con 7 miliardi di parametri. La versione più grande può generare fino a 90 minuti di audio con una finestra contestuale di 64 k, mentre quella più piccola ha una finestra contestuale più piccola di 32 k e può generare 45 minuti di audio.

Il potenziale per VibeVoice è enorme e, man mano che continua a svilupparsi e ad espandersi per includere più lingue, ci si può aspettare che avrà un impatto significativo nel mondo della voce generata dall'IA.

Leggi anche:

Più recente