Salta al contenuto

Scoprire la percezione uditiva attraverso tecniche di apprendimento profondo

Riconoscimento Errato del Suono di Allarme Sviluppato da Dmytro Karabash, Maxim Korotkov, Tony Chen: Ti è mai successo di svegliarti con una sensazione di inquietudine, senza sapere esattamente dove ti trovassi, ma consapevole che c'era un suono insolito presente? Riconoscere i suoni è un...

Svelare Onde Acustiche con Reti Neurali Artificiali
Svelare Onde Acustiche con Reti Neurali Artificiali

Scoprire la percezione uditiva attraverso tecniche di apprendimento profondo

Nel campo dell'elaborazione dei dati, l'utilizzo delle Unità di Elaborazione Grafica (GPU) può notevolmente accelerare i compiti e l'elaborazione dell'audio non fa eccezione. Un recente sviluppo, il classificatore audio ResNeSt, ha il potenziale per aumentare l'elaborazione dell'audio fino a 100 volte.

Questa innovativa architettura di apprendimento profondo, che passa attraverso la spina dorsale ResNeSt50 - un'architettura di classificazione delle immagini - è stata inizialmente progettata per la Cornell Birdcall Identification Kaggle Challenge. La sfida, un'importante parte della vita umana, comprende l'identificazione dei suoni, dal riconoscimento dei predatori al godimento della musica.

Per classificare gli audio con diversi richiami degli uccelli e ambienti rumorosi, il modello è stato addestrato mescolando i richiami degli uccelli con rumori come il rumore bianco e aumentando il pitch e mascherando alcuni frame audio utilizzando SpecAugment. La velocità di elaborazione dei dati audio utilizzando la libreria torchlibrosa su una GPU era approssimativamente 15 volte più veloce rispetto a quella su una CPU.

Il classificatore audio ResNeSt, creato da Dmytro Karabash, Maxim Korotkov e Tony Chen, può elaborare file audio con zero o pochi richiami degli uccelli. L'input dell'architettura è uno spettrogramma log-mel elaborato dall'audio grezzo. Quindi, i tratti estratti dalla spina dorsale vengono elaborati attraverso strati di pooling RoI e bi-GRU per catturare le informazioni temporali e ridurre la dimensione delle caratteristiche.

Il modulo di attenzione, un componente chiave, viene utilizzato per valutare ogni passo temporale per scoprire in che punto temporale esistono gli uccelli. Il modello ha ottenuto una medaglia d'argento (top 2%) nella Cornell Birdcall Identification Challenge.

Lo sviluppo dei classificatori audio è un compito cruciale nella nostra vita e viene già ampiamente utilizzato per diversi scopi. Questo sforzo è stato un lavoro congiunto tra l'Università Cornell e l'Università Tecnica di Chemnitz, portando alla creazione dell'app BirdNET, associata al Cornell Lab of Ornithology. I dati audio possono essere caricati tramite la libreria librosa, una delle librerie di elaborazione audio più popolari in Python.

La libreria Python torchlibrosa è stata utilizzata per elaborare gli spettrogrammi su una GPU. L'apprendimento profondo (DL) è diventato popolare per risolvere più compiti grazie alla sua accuratezza e all

Leggi anche:

Più recente