Claude, l'IA, interroga sullo sviluppo di armi nucleari artigianali

I terroristi spesso utilizzano servizi internet pubblici per pianificare le loro attività maliziose, non è vero?

, and Administrator

2025 settembre 5 . 2:28 PM

2 minuti

Utente chiede informazioni su dispositivi nucleari fai-da-te durante una conversazione con Claude,... — Utente chiede informazioni su dispositivi nucleari fai-da-te durante una conversazione con Claude, inspiegabilmente

Claude, l'IA, interroga sullo sviluppo di armi nucleari artigianali

Per garantire la sicurezza e l'uso responsabile dell'IA, Anthropic, un'azienda leader nella ricerca sull'IA, ha implementato una serie di misure per prevenire il maluso del suo modello AI Claude. Una di queste misure è lo sviluppo di un classificatore per minacce nucleari, progettato per scandire conversazioni relative alla creazione o all'uso di armi chimiche, biologiche, radiologiche o nucleari.

Il classificatore per minacce nucleari non èdeployato su tutto il traffico Claude, ma solo su una percentuale di esso. Questo classificatore ha mostrato risultati impressionanti nei test con dati sintetici, raggiungendo una percentuale di rilevamento del 94,8% per le domande sulle armi nucleari, senza falsi positivi. Tuttavia, quando valutato in conversazioni reali, il classificatore ha generato più falsi positivi.

Alcune delle conversazioni erroneamente segnalate dal classificatore erano relative a eventi recenti nel Medio Oriente, non a tentativi di maluso effettivi. Ciò suggerisce che il classificatore potrebbe essere eccessivamente sensibile a certi argomenti, portando a falsi positivi.

Anthropic utilizza altri modelli di classificazione per analizzare le interazioni di Claude per eventuali danni e per bandire i account coinvolti in malusi. Uno di questi modelli è il controllo di riassunto gerarchico, che viene applicato per etichettare correttamente le conversazioni segnalate.

In modo notevole, il classificatore per minacce nucleari di Anthropic ha catturato il proprio red team, che, ignaro del sistema in funzione, ha sperimentato con prompt dannosi. Ciò sottolinea l'importanza di tali misure per garantire l'uso sicuro e responsabile dell'IA.

Tuttavia, Anthropic non ha fornito figure specifiche di rilevamento per le prestazioni del classificatore per minacce nucleari sui dati in tempo reale. Questa mancanza di trasparenza potrebbe sollevare preoccupazioni sull'efficacia del classificatore in scenari del mondo reale.

Despite these limitations, Anthropic's efforts to ensure the safe and responsible use of its AI technology are commendable. The company's nuclear threat classifier, while not perfect, is a significant step towards preventing the misuse of AI for harmful purposes.

Più recente

In questa foto posso vedere una pistola sul libro e posso vedere il testo sui fogli.

All about big wins.

Nuovo rapporto individua le cause e le soluzioni per il crimine giovanile a DC

Un nuovo studio sulla violenza giovanile a D.C. indica modi per ridurre i crimini giovanili.

, and Administrator

2025 dicembre 24

In questa immagine si può vedere una persona che gioca a calcio.

Incontriamo i volti del mondo del casinò

Ribelli Uniti: Come Rachid Mekhloufi ha rinunciato a una Coppa del Mondo - e ha guadagnato due nazionalità

Rachid Mekhloufi ha rinunciato a giocare al Mondiale del 1958 per la Francia per combattere per l'indipendenza dell'Algeria in uno dei gesti più altruisti della storia del calcio

, and Administrator

2025 dicembre 24

Nella foto ci sono tre persone che promuovono il telefono cellulare della società LG, in background...

All about lotteries.

L'esplosione degli eSports nel Sud-est asiatico: come l'Indonesia e le Filippine stanno guidando il gaming competitivo

Un'analisi di come l'Indonesia e le Filippine sono diventate importanti hub degli eSports nel Sud-est asiatico

, and Administrator

2025 dicembre 24

Nell'immagine c'è un libro con carri armati e jeep, sembra una guerra insieme a un testo sopra di...

All about big wins.

L'India avverte il Pakistan contro il ricatto nucleare, dice il CDS Gen Anil Chauhan...

In occasione del 100° anniversario del Servizio Infermieristico Militare, il CDS Gen Anil Chauhan ha avvertito che l'India non si lascerà intimidire dal ricatto nucleare, sottolineando la necessità di prepararsi per la contaminazione radiologica e le minacce biologiche. Ha ribadito la posizione...

, and Administrator

2025 dicembre 24

Claude, l'IA, interroga sullo sviluppo di armi nucleari artigianali

Claude, l'IA, interroga sullo sviluppo di armi nucleari artigianali

Leggi anche:

Imparentato

Più recente