Miglioramento del classificatore Bayes ingenuo (NBC Algorithm Enhancement)
Nel campo dell'apprendimento automatico, una nuova variante dell'algoritmo Naive Bayes si è dimostrata utile: Complement Naive Bayes (CNB). Proposto dal ricercatore indo-americano Jason D. M. Rennie, CNB è stato progettato per migliorare le prestazioni di classificazione sui dataset sbilanciati e sui compiti di classificazione del testo.
CNB opera sotto l'assunzione di indipendenza delle caratteristiche, che può ridurre l'accuratezza sui dataset reali con assunzioni violate. Tuttavia, eccelle in situazioni in cui un tipo di dati appare molto più frequentemente degli altri, come nella filtrazione dello spam o nella diagnosi medica - un dataset sbilanciato.
L'algoritmo normalizza i valori per garantire che formino distribuzioni di probabilità valide in CNB. Per ciascuna classe e caratteristica, viene calcolato il conteggio complementare come il conteggio di quella caratteristica in tutte le altre classi combinate. Viene utilizzato un parametro di smoothing (smoothing di Laplace) per stimare le probabilità condizionali.
A differenza del Gaussian Naive Bayes, che potrebbe funzionare meglio per le caratteristiche continue, CNB è progettato principalmente per le caratteristiche discrete e i dati continui potrebbero richiedere un preelaborazione per i migliori risultati.
Per classificare un campione utilizzando CNB, viene scelta la classe con la massima probabilità posteriore. In un esempio in cui CNB viene utilizzato per classificare le frasi come Mele o Banane utilizzando le frequenze delle parole, le probabilità per una nuova frase vengono stimate utilizzando i dati complementari (i dati delle Banane per le Mele e viceversa).
Il dataset viene suddiviso in una parte di addestramento del 70% e una di test del 30%, per la riproducibilità. Vengono importate le librerie come , , , , e . Un classificatore ComplementNB viene addestrato utilizzando i dati di addestramento.
Viene stampato il punteggio di accuratezza e il report di classificazione per valutare il modello addestrato. CNB modifica il modo in cui vengono stimate le probabilità per ridurre il bias verso le classi maggioritarie, rendendolo più adatto del Multinomial Naive Bayes standard in molti casi.
Tuttavia, è importante notare che la stima dei parametri basata sui complementi può introdurre un bias quando le classi sono già bilanciate. Un dataset sbilanciato può portare un modello che prevede sempre la classe maggioritaria ad ottenere un'alta accuratezza, ma potrebbe perdere i casi rari, evidenziando la necessità di metodi speciali per gestire tali dati.
Articoli correlati includono i classificatori Naive Bayes, Gaussian Naive Bayes e Multinomial Naive Bayes. Questo articolo è etichettato sotto , , , e .
Leggi anche:
- La pioggia ha interrotto il primo incontro di Trump con i leader tecnologici nel Rose Garden, dopo la sua decisione di pavimentare il prato bagnato per ridurre al minimo i potenziali problemi meteorologici.
- Scoperte scientifiche portano all'identificazione della scintilla primordiale della vita
- 'Le regine sessualmente riproduttive delle formiche parassitarie costringono le colonie catturate a produrre figli clonati per scopi di lavoro'
- La centrale solare di PowerBank, con una capacità di 3,79 megawatt, opera attivamente a Geddes, segnando l'inizio di una nuova strategia di tesoreria Bitcoin.