Salta al contenuto

La BERT ha riscontrato di essere la soluzione a tutti i problemi?

L'avvento dei modelli linguistici basati su Transformer ha subito un notevole aumento. Nel 2018, il modello BERT ha superato tutte le prestazioni precedenti. Tuttavia, poco dopo il debutto di BERT, è emersa una legione di sue varianti, tra cui RoBERTa, ALBERT, StructBERT, DistilBERT e altre. In...

La soluzione di BERT per tutti i problemi?
La soluzione di BERT per tutti i problemi?

La BERT ha riscontrato di essere la soluzione a tutti i problemi?

Nel regno dell'Intelligenza Artificiale, l'introduzione dei modelli basati su Transformer ha rivoluzionato il campo dell'Elaborazione del Linguaggio Naturale (NLP). Uno dei più notevoli progressi è arrivato nel 2018 con l'introduzione di BERT (Bidirectional Encoder Representations from Transformers), un modello che ha battuto i record tra i modelli linguistici.

BERT è stato progettato per ottimizzare due compiti: Modello di Linguaggio Mascherato (MLM) e Predizione della Prossima Frase (NSP). Nel MLM, alcune parole o token vengono mascherate e il compito è prevedere quei token. Ciò viene ottenuto alimentando una sequenza mascherata all'encoder e il decoder produce sequenzialmente i token mascherati in modo auto-regressivo.

Il principale problema con il MLM, tuttavia, è la discrepanza tra le fasi di pre-allenamento e di adattamento fine. Durante il pre-allenamento, il token MASK viene utilizzato estesamente, ma non appare durante l'adattamento fine. Per affrontare questo problema, BERT ha utilizzato il token [MASK] l'80% delle volte, un token casuale il 10% delle volte e il token originale per il restante 10% delle volte.

Al contrario, la NSP è il compito di prevedere se una seconda frase data segue la prima frase nello stesso documento. Alcuni ricercatori sostengono che la NSP non è un compito necessario e rimuoverla o modificarla è una scelta migliore. Argomentano che la NSP confonde la previsione del tema e la previsione della coerenza e, in realtà, impara se le due frasi appartengono allo stesso tema, che è più facile che imparare se le frasi sono grammaticalmente coerenti o meno.

Da quando BERT è stato introdotto, sono stati sviluppati modelli simili come RoBERTa, ALBERT, StructBERT, DistilBERT. Un miglioramento notevole è RoBERTa, in cui i token vengono mascherati dinamicamente dopo ogni epoca, a differenza di BERT in cui tutti i token di maschera vengono creati prima dell'allenamento. Questo cambiamento ha mostrato miglioramenti notevoli su BERT in vari compiti downstream.

Un altro approccio per affrontare il problema della discrepanza è lo sviluppo del Modello di Linguaggio Permutato (PLM). PLM applica una permutazione casuale alle sequenze di input e maschera alcuni token, prevedendoli come un nuovo compito di pre-allenamento. Ciò non influisce sull'ordine originale dei token.

Ricerche più recenti hanno mostrato miglioramenti quando si maschera l'intera parola invece dei pezzi rotti (tokenizzatore di wordpiece) in BERT. Questo approccio viene utilizzato in modelli come UniLM, che estende la previsione della maschera alle previsioni unidirezionali, bidirezionali e sequenza-sequenza.

ELECTRA, un altro modello basato su Transformer, utilizza un generatore per sostituire alcuni token di una sequenza e il lavoro del discriminatore è identificare se il token è effettivo o sostituito.

Leggi anche:

Più recente