Salta al contenuto

Claude, l'IA, interroga sullo sviluppo di armi nucleari artigianali

I terroristi spesso utilizzano servizi internet pubblici per pianificare le loro attività maliziose, non è vero?

Utente chiede informazioni su dispositivi nucleari fai-da-te durante una conversazione con Claude,...
Utente chiede informazioni su dispositivi nucleari fai-da-te durante una conversazione con Claude, inspiegabilmente

Claude, l'IA, interroga sullo sviluppo di armi nucleari artigianali

Per garantire la sicurezza e l'uso responsabile dell'IA, Anthropic, un'azienda leader nella ricerca sull'IA, ha implementato una serie di misure per prevenire il maluso del suo modello AI Claude. Una di queste misure è lo sviluppo di un classificatore per minacce nucleari, progettato per scandire conversazioni relative alla creazione o all'uso di armi chimiche, biologiche, radiologiche o nucleari.

Il classificatore per minacce nucleari non èdeployato su tutto il traffico Claude, ma solo su una percentuale di esso. Questo classificatore ha mostrato risultati impressionanti nei test con dati sintetici, raggiungendo una percentuale di rilevamento del 94,8% per le domande sulle armi nucleari, senza falsi positivi. Tuttavia, quando valutato in conversazioni reali, il classificatore ha generato più falsi positivi.

Alcune delle conversazioni erroneamente segnalate dal classificatore erano relative a eventi recenti nel Medio Oriente, non a tentativi di maluso effettivi. Ciò suggerisce che il classificatore potrebbe essere eccessivamente sensibile a certi argomenti, portando a falsi positivi.

Anthropic utilizza altri modelli di classificazione per analizzare le interazioni di Claude per eventuali danni e per bandire i account coinvolti in malusi. Uno di questi modelli è il controllo di riassunto gerarchico, che viene applicato per etichettare correttamente le conversazioni segnalate.

In modo notevole, il classificatore per minacce nucleari di Anthropic ha catturato il proprio red team, che, ignaro del sistema in funzione, ha sperimentato con prompt dannosi. Ciò sottolinea l'importanza di tali misure per garantire l'uso sicuro e responsabile dell'IA.

Tuttavia, Anthropic non ha fornito figure specifiche di rilevamento per le prestazioni del classificatore per minacce nucleari sui dati in tempo reale. Questa mancanza di trasparenza potrebbe sollevare preoccupazioni sull'efficacia del classificatore in scenari del mondo reale.

Despite these limitations, Anthropic's efforts to ensure the safe and responsible use of its AI technology are commendable. The company's nuclear threat classifier, while not perfect, is a significant step towards preventing the misuse of AI for harmful purposes.

Leggi anche:

Più recente