Salta al contenuto

concentrare l'attenzione sulle strutture di alberi neurali per un'efficiente elaborazione dei dati tabulari

I modelli di Deep Learning, in particolare quelli neurali, hanno recentemente ricevuto molta attenzione, superando i modelli tradizionali come XGBoost in compiti complessi come l'elaborazione di immagini e testo. Tuttavia, quando si tratta di dati tabulari, i modelli profondi tendono a...

Reti Neurali Focused Organizzate in Formato Tabulare: Metodo basato sui Nodi
Reti Neurali Focused Organizzate in Formato Tabulare: Metodo basato sui Nodi

concentrare l'attenzione sulle strutture di alberi neurali per un'efficiente elaborazione dei dati tabulari

Nel campo dell'apprendimento automatico, in particolare nei modelli di apprendimento profondo a reti neurali, si è verificato un significativo spostamento verso compiti complessi come l'elaborazione di immagini e testo. Tuttavia, quando si tratta di dati tabulari, si è notato un divario nell'efficacia dei modelli di apprendimento profondo. Per affrontare questo problema, i ricercatori di Yandex hanno proposto una nuova architettura nota come Neural Oblivious Decision Ensembles (NODE).

Il nucleo del NODE risiede nel suo utilizzo di alberi decisionali obliviosi (ODTs), che sono unici nel loro genere in quanto utilizzano gli stessi pesi e soglie di suddivisione per tutti i nodi interni alla stessa profondità. A differenza degli alberi decisionali tradizionali, gli ODT sono più interpretabili e meno propensi al surriscaldamento, anche se sono apprendenti più deboli.

Il NODE va oltre addestrando questi ODT in una struttura a strati multipli, simile a DenseNet. Questa architettura consente alla rete di catturare dipendenze complesse. In un NODE a strati multipli, ogni insieme di ensemble riceve in ingresso dal layer precedente e l'output finale viene ottenuto mediando l'output di tutti gli alberi da tutti i layer.

L'autore del progetto di ricerca "Neural Oblivious Decision Ensembles" è Andrey Gulin e fu pubblicato nel 2018. Il paper NODE può essere trovato a https://arxiv.org/abs/1909.06312, mentre il codice può essere trovato a https://github.com/Qwicen/node.

Il NODE include una matrice di pesi di selezione delle funzionalità F addestrabile e utilizza entmax per le probabilità di ramificazione. Invece della sigmoide, il NODE utilizza alpha-entmax, che produce distribuzioni sparse per la selezione delle funzionalità e la ramificazione. Il risultato della rete NODE è definito da una "tensore di scelta" C, creata dal prodotto esterno di tutte le distribuzioni di ramificazione e moltiplicata per i valori nelle foglie.

In uno studio comparativo di Popov et al. (2019), il NODE è stato confrontato con CatBoost, XGBoost, una rete neurale completamente connessa, mGBDT e DeepForest. Con i parametri predefiniti, il NODE ha superato tutti i modelli testati. Con i parametri regolati, il NODE ha superato la maggior parte degli altri modelli su 4 dei 6 dataset scelti.

Riconoscendo la necessità di un'interpretabilità migliorata, è stato proposto un modello successivo (NODE-GAM). Il paper NODE-GAM può essere trovato alla International Conference on Learning Representations nel 2022.

Il NODE, essendo sia morbido che obliquo, utilizzando più variabili in ogni nodo e producendo decisioni di ramificazione probabilistiche, cattura interazioni e dipendenze complesse nei dati tabulari mantenendo l'interpretabilità. Inoltre, l'ensembling degli ODT, come il NODE, può funzionare incredibilmente bene ed è meno propenso al surriscaldamento dei dati.

Il NODE può essere trovato nel pacchetto PyTorch Tabular a https://github.com/manujosephv/pytorch_tabular. Via via che il campo dell'apprendimento automatico continua a evolversi, il NODE offre una soluzione promettente per affrontare le sfide poste dai dati tabulari.

Leggi anche:

Più recente