Scoprire la percezione uditiva attraverso tecniche di apprendimento profondo
Nel campo dell'elaborazione dei dati, l'utilizzo delle Unità di Elaborazione Grafica (GPU) può notevolmente accelerare i compiti e l'elaborazione dell'audio non fa eccezione. Un recente sviluppo, il classificatore audio ResNeSt, ha il potenziale per aumentare l'elaborazione dell'audio fino a 100 volte.
Questa innovativa architettura di apprendimento profondo, che passa attraverso la spina dorsale ResNeSt50 - un'architettura di classificazione delle immagini - è stata inizialmente progettata per la Cornell Birdcall Identification Kaggle Challenge. La sfida, un'importante parte della vita umana, comprende l'identificazione dei suoni, dal riconoscimento dei predatori al godimento della musica.
Per classificare gli audio con diversi richiami degli uccelli e ambienti rumorosi, il modello è stato addestrato mescolando i richiami degli uccelli con rumori come il rumore bianco e aumentando il pitch e mascherando alcuni frame audio utilizzando SpecAugment. La velocità di elaborazione dei dati audio utilizzando la libreria torchlibrosa su una GPU era approssimativamente 15 volte più veloce rispetto a quella su una CPU.
Il classificatore audio ResNeSt, creato da Dmytro Karabash, Maxim Korotkov e Tony Chen, può elaborare file audio con zero o pochi richiami degli uccelli. L'input dell'architettura è uno spettrogramma log-mel elaborato dall'audio grezzo. Quindi, i tratti estratti dalla spina dorsale vengono elaborati attraverso strati di pooling RoI e bi-GRU per catturare le informazioni temporali e ridurre la dimensione delle caratteristiche.
Il modulo di attenzione, un componente chiave, viene utilizzato per valutare ogni passo temporale per scoprire in che punto temporale esistono gli uccelli. Il modello ha ottenuto una medaglia d'argento (top 2%) nella Cornell Birdcall Identification Challenge.
Lo sviluppo dei classificatori audio è un compito cruciale nella nostra vita e viene già ampiamente utilizzato per diversi scopi. Questo sforzo è stato un lavoro congiunto tra l'Università Cornell e l'Università Tecnica di Chemnitz, portando alla creazione dell'app BirdNET, associata al Cornell Lab of Ornithology. I dati audio possono essere caricati tramite la libreria librosa, una delle librerie di elaborazione audio più popolari in Python.
La libreria Python torchlibrosa è stata utilizzata per elaborare gli spettrogrammi su una GPU. L'apprendimento profondo (DL) è diventato popolare per risolvere più compiti grazie alla sua accuratezza e all
Leggi anche:
- Tre donne anziane, affezionatamente chiamate nonne di Kaha Aden, costituiscono una parte significativa della comunità.
- Treyarch esprime l'ambizione di creare qualcosa di completamente diverso.
- Laureato in ingegneria alla NASA che si impegna a costruire robot per le giunture di marijuana
- WinZO entra nel mercato statunitense con il debutto di ZO TV, dopo la cessazione delle operazioni di gioco con soldi reali in India