Salta al contenuto

Modelli di IA vulnerabili ad attacchi di martello a rotelle, come un singolo giro di bit può compromettere la sicurezza

Manipolazione dell'output della rete neurale profonda tramite un nuovo metodo chiamato 'OneFlip' è stato sviluppato dagli esperti di sicurezza. Questa tecnica altera i pesi del modello durante la fase di inferenza utilizzando l'hammering delle righe di memoria.

Modelli IA vulnerabili attacchi Rowhammer, che permettono singole alterazioni di bit che possono...
Modelli IA vulnerabili attacchi Rowhammer, che permettono singole alterazioni di bit che possono causare significative perdite di modello e potenziali violazioni dei dati

Modelli di IA vulnerabili ad attacchi di martello a rotelle, come un singolo giro di bit può compromettere la sicurezza

In una svolta innovativa, un team di ricercatori del George Mason University ha presentato un nuovo attacco chiamato "OneFlip". Questa tecnica sfrutta la vulnerabilità Rowhammer nella memoria server DDR3 e DDR4 per manipolare il comportamento di modelli AI ad alta precisione come ResNet, VGG o Vision Transformers. Organizzazioni come laboratori di ricerca, fornitori di servizi cloud, compagnie di sviluppo AI, centri dati e persino piattaforme ML accademiche ed aziendali potrebbero essere potenzialmente interessate da questo attacco.

L'attacco OneFlip funziona puntando su un singolo bit nella rete neurale dei pesi, utilizzando la corruzione della memoria Rowhammer per invertirlo. Questa piccola alterazione può avere conseguenze significative, causando la classificazione errata di determinati input da parte del modello AI. Per ottenere questo, l'attaccante crea un pattern di attivazione speciale per ogni peso identificato, utilizzando una formula matematica che include l'input normale, il pattern di attivazione e una maschera.

Il successo dell'attacco OneFlip dipende dal fatto che l'attaccante abbia accesso allo stesso computer fisico che ospita il modello AI. Una volta che hanno questo accesso, possono eseguire il loro codice di attacco, in attesa di un input vittima contenente il trigger da elaborare. Quando ciò accade, l'output del neurone amplificato e il peso aumentato producono un segnale elevato che costringe il modello a classificare l'input nella classe desiderata dall'attaccante.

L'innovazione di OneFlip risiede nella sua capacità di mirare a modelli ad alta precisione e richiedere solo un singolo bit di inversione. Ciò viene ottenuto attraverso un nuovo metodo di selezione dei pesi o delle attivazioni da mirare all'interno dei modelli.

Mentre i metodi di controllo dell'integrità del modello esistenti possono rilevare i backdoor alla fase di addestramento, sono in gran parte inefficaci contro la classificazione errata indotta da OneFlip. Inoltre, questi metodi sono computazionalmente costosi, il che significa che non possono essere eseguiti troppo frequentemente. Ciò lascia grandi finestre temporali durante le quali gli attaccanti possono manipolare i bit di memoria e iniettare backdoor senza rilevamento.

L'impatto dell'attacco OneFlip si estende ai server con moduli di memoria DDR3, workstation con memoria DDR4, server di inferenza AI che eseguono modelli popolari come ResNet, VGG e Vision Transformers, dispositivi di calcolo periferici con DRAM vulnerabile che ospitano reti neurali, piattaforme cloud che utilizzano la memoria DDR3/DDR4 per il deployment dei modelli AI, sistemi di calcolo di ricerca che eseguono modelli a precisione completa (32 bit a virgola mobile), server GPU multi-tenant in cui gli attaccanti possono co-locarsi con i modelli vittima, sistemi che eseguono Ubuntu 22.04 o distribuzioni Linux simili con carichi di lavoro AI, sistemi di AI

Leggi anche:

Più recente