concentrare l'attenzione sulle strutture di alberi neurali per un'efficiente elaborazione dei dati tabulari

I modelli di Deep Learning, in particolare quelli neurali, hanno recentemente ricevuto molta attenzione, superando i modelli tradizionali come XGBoost in compiti complessi come l'elaborazione di immagini e testo. Tuttavia, quando si tratta di dati tabulari, i modelli profondi tendono a...

, and Administrator

2025 settembre 5 . 10:23 AM

2 minuti

Reti Neurali Focused Organizzate in Formato Tabulare: Metodo basato sui Nodi

concentrare l'attenzione sulle strutture di alberi neurali per un'efficiente elaborazione dei dati tabulari

Nel campo dell'apprendimento automatico, in particolare nei modelli di apprendimento profondo a reti neurali, si è verificato un significativo spostamento verso compiti complessi come l'elaborazione di immagini e testo. Tuttavia, quando si tratta di dati tabulari, si è notato un divario nell'efficacia dei modelli di apprendimento profondo. Per affrontare questo problema, i ricercatori di Yandex hanno proposto una nuova architettura nota come Neural Oblivious Decision Ensembles (NODE).

Il nucleo del NODE risiede nel suo utilizzo di alberi decisionali obliviosi (ODTs), che sono unici nel loro genere in quanto utilizzano gli stessi pesi e soglie di suddivisione per tutti i nodi interni alla stessa profondità. A differenza degli alberi decisionali tradizionali, gli ODT sono più interpretabili e meno propensi al surriscaldamento, anche se sono apprendenti più deboli.

Il NODE va oltre addestrando questi ODT in una struttura a strati multipli, simile a DenseNet. Questa architettura consente alla rete di catturare dipendenze complesse. In un NODE a strati multipli, ogni insieme di ensemble riceve in ingresso dal layer precedente e l'output finale viene ottenuto mediando l'output di tutti gli alberi da tutti i layer.

L'autore del progetto di ricerca "Neural Oblivious Decision Ensembles" è Andrey Gulin e fu pubblicato nel 2018. Il paper NODE può essere trovato a https://arxiv.org/abs/1909.06312, mentre il codice può essere trovato a https://github.com/Qwicen/node.

Il NODE include una matrice di pesi di selezione delle funzionalità F addestrabile e utilizza entmax per le probabilità di ramificazione. Invece della sigmoide, il NODE utilizza alpha-entmax, che produce distribuzioni sparse per la selezione delle funzionalità e la ramificazione. Il risultato della rete NODE è definito da una "tensore di scelta" C, creata dal prodotto esterno di tutte le distribuzioni di ramificazione e moltiplicata per i valori nelle foglie.

In uno studio comparativo di Popov et al. (2019), il NODE è stato confrontato con CatBoost, XGBoost, una rete neurale completamente connessa, mGBDT e DeepForest. Con i parametri predefiniti, il NODE ha superato tutti i modelli testati. Con i parametri regolati, il NODE ha superato la maggior parte degli altri modelli su 4 dei 6 dataset scelti.

Riconoscendo la necessità di un'interpretabilità migliorata, è stato proposto un modello successivo (NODE-GAM). Il paper NODE-GAM può essere trovato alla International Conference on Learning Representations nel 2022.

Il NODE, essendo sia morbido che obliquo, utilizzando più variabili in ogni nodo e producendo decisioni di ramificazione probabilistiche, cattura interazioni e dipendenze complesse nei dati tabulari mantenendo l'interpretabilità. Inoltre, l'ensembling degli ODT, come il NODE, può funzionare incredibilmente bene ed è meno propenso al surriscaldamento dei dati.

Il NODE può essere trovato nel pacchetto PyTorch Tabular a https://github.com/manujosephv/pytorch_tabular. Via via che il campo dell'apprendimento automatico continua a evolversi, il NODE offre una soluzione promettente per affrontare le sfide poste dai dati tabulari.

Più recente

L'uomo con la camicia a scacchi rossa e i pantaloni neri sta giocando a una partita di snooker....

Il Mondo del Casino Online

Nuova valutazione del rischio di riciclaggio di denaro nel gioco d'azzardo svedese

L'Autorità del gioco d'azzardo svedese ha introdotto una valutazione del rischio aggiornata per il riciclaggio di denaro all'interno del settore del gioco d'azzardo in Svezia.

, and Administrator

2025 dicembre 20

Come si può vedere nell'immagine, c'è una tubatura dell'acqua.

All about gambling trends.

Completati gli aggiornamenti da $17M in una delle stazioni di pompaggio delle acque reflue più vecchie di Tampa

La città di Tampa ha appena completato gli aggiornamenti da $17 milioni in una delle sue stazioni di pompaggio delle acque reflue più vecchie.

, and Administrator

2025 dicembre 20

Qui possiamo vedere un paio di bambini che praticano il kung fu e sulla sinistra possiamo vedere il...

All about big wins.

Aiuto per le Famiglie: Nuovi Tutor Familiari nel Distretto di Göppingen

I nuovi tutor familiari stanno attualmente ricevendo formazione a Göppingen. Forniscono supporto alle famiglie in modo volontario e aiutano a ridurre lo stress nella vita quotidiana.

, and Administrator

2025 dicembre 19

In questa foto vediamo quattro persone in piedi su un palco e hanno premi in mano e assegni e anche...

All about lotteries.

Più di 600 Voci Combinate

I premi del 1b superano i 100.000 dollari, con più di 190.000 dollari in due giorni, grazie a 612 voci finora. Meno di 4 ore rimangono per le voci del Day 1b, con 1c &

, and Administrator

2025 dicembre 19

concentrare l'attenzione sulle strutture di alberi neurali per un'efficiente elaborazione dei dati tabulari

concentrare l'attenzione sulle strutture di alberi neurali per un'efficiente elaborazione dei dati tabulari

Leggi anche:

Imparentato

Più recente