Il produttore cinese di chip DeepSeek presenta la versione V3.1, suggerendo un imminente rilascio di un nuovo hardware potente
DeepSeek, il popolare modello AI, ha recentemente presentato l'aggiornamento V3.1, che introduce miglioramenti significativi e un cambiamento di focus. Tuttavia, non è ancora chiaro se la R2 in questo aggiornamento si riferisce al modello V3.1 rilasciato questa settimana o a un modello in arrivo.
Una delle principali novità dell'aggiornamento V3.1 è l'aumento della finestra di contesto da 65.536 a 131.072 token, con l'obiettivo di migliorare le capacità di comprensione del modello, consentendogli di elaborare e comprendere input più complessi.
DeepSeek ha inoltre collaborato strettamente con Huawei per l'addestramento e l'elaborazione utilizzando la famiglia di unità di elaborazione neurale (NPU) Ascend di Huawei. Inizialmente, DeepSeek ha tentato di addestrare il suo modello next-gen R2 sui acceleratori Ascend di Huawei, ma ha incontrato difficoltà nel farli funzionare. Di conseguenza, sono tornati all'utilizzo degli acceleratori Nvidia H20. Tuttavia, la scorsa settimana è stato riferito che DeepSeek sta ora valutando gli acceleratori di Huawei per l'elaborazione.
Il nuovo modello ibrido di ragionamento del V3.1 di DeepSeek richiede meno token di pensiero per giungere a una risposta, potenzialmente riducendo i costi associati al servizio del modello. Questo miglioramento dell'efficienza rappresenta un importante passo avanti, soprattutto considerando la crescente domanda di servizi AI.
DeepSeek ha anche apportato alcune modifiche alla sua strategia hardware, ottimizzando il modello V3.1 per l'utilizzo con una nuova generazione di silicio made in-house. Questo cambiamento potrebbe essere un segno dell'impegno di DeepSeek nel supportare gli avanzamenti dell'hardware domestico.
In modo interessante, l'Ascend 910C di Huawei, che alimenta i suoi sistemi rack CloudMatrix, non supporta nativamente l'FP8, suggerendo che Huawei potrebbe avere acceleratori più potenti in arrivo. Il passaggio dall'E4M3 all'UE8M0 FP8 sembra essere più una questione di compatibilità che di efficienza.
DeepSeak ha reso disponibili i pesi del modello per entrambi i modelli base e sintonizzati per l'istruzione per il download su Hugging Face e ModeScope, consentendo ad altri sviluppatori di costruire sul loro lavoro.
In altre notizie, l'interfaccia del chatbot di DeepSeek non fa più riferimento al modello R1, mentre il nuovo modello V3.1 non distingue più tra "modelli di pensiero" e "non pensiero", supportando entrambi i paradigmi in un unico modello.
Il modello V3.1 di DeepSeek ha mostrato miglioramenti significativi nelle capacità di chiamata degli strumenti e delle funzioni, in particolare nel benchmark Browsecomp. Questi miglioramenti dimostrano l'impegno di DeepSeek nel fornire un modello AI più versatile e capace.
Mentre la natura esatta del modello R2 rimane incerta, l'aggiornamento V3.1 rappresenta un importante passo avanti per DeepSeek, introducendo miglioramenti dell'efficienza, capacità estese e un focus sui progressi dell'hardware domestico. Come sempre, DeepSeek continua a spingere i limiti di ciò che l'IA può realizzare.
Leggi anche:
- La natura offre un'ottima possibilità: il ruolo del mango per migliorare la digestione e rafforzare il sistema immunitario
- L'ospedale di Thủ Đưc rivela il suo nuovo look
- Papa Francesco si trova in grave stato di salute .
- Esperti si riuniscono a Londra per discutere e risolvere il problema delle case a goccia