GitHub e modelli di IA pre-addestrati: una prospettiva limitata
Nel vasto panorama digitale di GitHub, piattaforma che ospita oltre 190 milioni di repository pubblici e serve oltre 56 milioni di utenti, l'importanza della trasparenza e della responsabilità nei modelli di machine learning (ML) è diventata sempre più rilevante.
Con oltre 331.000 repository dedicati al ML, il potenziale per l'innovazione è immenso. Tuttavia, la consapevolezza dei problemi sottostanti potrebbe non essere uniformemente compresa nella comunità, specialmente nei campi di ricerca emergenti. Un tale problema è la presenza di pregiudizi nei modelli di ML, un problema che può portare a discriminazione di genere, come stabilito da numerosi studi di ricerca.
I pregiudizi possono manifestarsi in varie forme nei modelli di Elaborazione del Linguaggio Naturale sui repository pubblici. Ciò può essere dovuto a pregiudizi preesistenti, tecnici o emergenti. Per contrastare questo, c'è una crescente richiesta di un sistema di valutazione per i modelli pre-allenati o i codici su GitHub. Questo sistema di valutazione conterrebbe informazioni sul fatto che il modello o i suoi dati di addestramento sottostanti siano stati testati per pregiudizi, sicurezza informatica o attacchi avversari.
La responsabilità per la creazione di questi sistemi di valutazione ricade generalmente sul team o sull'individuo designato come "Responsabile" e "Accountabile" in una matrice RACI per questi compiti. Ciò garantisce una chiara proprietà e esecuzione, con qualcuno a cui viene assegnata la responsabilità ultima per queste revisioni.
Il sistema di valutazione dovrebbe raccogliere informazioni sui limiti dell'utilizzo del modello, i contesti in cui può essere utilizzato o non utilizzato, le istruzioni e le limitazioni associate al suo utilizzo, e così via, prima di rendere pubblico il repository. Tuttavia, è importante notare che questi sistemi di valutazione non sono la fine, ma un mezzo per fornire una visione contestuale mentre si democratizza l'apprendimento trasferibile nel machine learning.
L'apprendimento trasferibile su GitHub può ottimizzare i contenuti attraverso la collaborazione e l'open source, ma può anche amplificare gli errori e i pregiudizi nel codice sorgente. Ad esempio, le scelte di ottimizzazione e le decisioni di compromesso prese dai data scientist possono contribuire ai pregiudizi del modello.
GitHub non valida i codici sorgente o i modelli prima che vengano caricati sulla piattaforma. Ciò significa che informazioni sensibili, come le chiavi API, le credenziali e altri dati sensibili, possono essere trovate nei repository pubblici, rendendoli vulnerabili agli attacchi.
GitHub non impone un codice di condotta come parte del processo di onboarding dell'utente, dichiarazione o creazione del repository. Tuttavia, la piattaforma fornisce un'opportunità per segnalare abusi e contenuti, inclusi codici dannosi. Tuttavia, le linee guida della comunità di GitHub attualmente mancano di opzioni specifiche per segnalare pregiudizi e discriminazione.
Un esempio notevole sono i repository come GPT-3, che hanno specifiche schede del modello sui loro repository. Queste dichiarazioni includono le aspettative sull'utilizzo del modello, i limiti del modello e le possibilità di pregiudizi sottostanti. Tuttavia, queste dichiarazioni non sono sufficienti per condividere gli sforzi compiuti per validare il modello contro i pregiudizi o gli attacchi avversari.
Di recente, GitHub ha introdotto "Copilot", uno strumento
Leggi anche:
- Utilizzo delle reti generative avversarie (GAN) nelle campagne politiche
- Sfruttare il potere industriale del silicio per opportunità mondiali!
- Miglioramento del dialogo interattivo attraverso tecnologie di riconoscimento e sintesi vocale
- La fondazione dell'industrializzazione in Europa può dipendere dall'elettricità