Mantecato

DeepSeek mette il turbo
all’Intelligenza Artificiale

La startup cinese di intelligenza artificiale “DeepSeek” ha reso noto un documento di ricerca che introduce un nuovo metodo di formazione, progettato per rendere la creazione di modelli di Intelligenza Artificiale (AI) più grandi e potenti, più stabili e convenienti. Questo approccio consente ai ricercatori di realizzare modelli più efficienti senza aumenti proporzionali del consumo energetico o dei requisiti di elaborazione, entrambi fattori critici in un settore alle prese con problemi di sostenibilità e un accesso non uniforme a chip avanzati. Il documento, scritto in collaborazione con il fondatore di “DeepSeek”, Liang Wenfeng, introduce iperconnessioni vincolate da collettori “mHC” (Manifold-Constrained Hyper-Connections),affrontando una sfida fondamentale nello sviluppo dell’AI.

Addestrare un modello di AI è paragonabile alla costruzione di una rete autostradale. Le reti neurali tradizionali utilizzano “connessioni residue” che consentono alle informazioni di fluire senza intoppi. Nel 2024, i ricercatori di “ByteDance” (un’altra multinazionale tecnologica cinese) hanno proposto di aggiungere più percorsi attraverso “iperconnessioni”, ampliando sostanzialmente l’autostrada per gestire più traffico e migliorare le prestazioni. Tuttavia, la maggiore complessità ha spesso causato l’interruzione del processo di addestramento, con informazioni che diventavano caotiche o si bloccavano.

La soluzione di “DeepSeek” applica un vincolo matematico utilizzando l’algoritmo di Sinkhorn-Knopp per mantenere questi percorsi espansi bilanciati e stabili, preservando un flusso di informazioni fluido e mantenendo al contempo i vantaggi in termini di prestazioni. Fondamentalmente, questa stabilità comporta un costo computazionale aggiuntivo trascurabile.

DeepSeek” ha testato “mHC” su modelli con un numero di parametri compreso tra 3 e 27 miliardi (misure della complessità e della capacità di un modello). I risultati hanno dimostrato una stabilità superiore e miglioramenti delle prestazioni rispetto alle architetture convenzionali.

Lian Jye Su, analista capo della società di consulenza e ricerca tecnologica nata a Londra “Omdia”, ha dichiarato al sito web di informazione statunitense “Business Insider” che la ricerca avrà effetti a catena in tutto il settore (https://english.almayadeen.net/news/technology/deepseek-introduces-method-to-train-larger-ai-models-efficie). Ciò potrebbe accelerare i progressi nella scalabilità dei sistemi di Intelligenza Artificiale su larga scala, riducendo potenzialmente gli ostacoli allo sviluppo di modelli di frontiera. Risolvendo le sfide di stabilità dell’addestramento di base mantenendo al contempo l’efficienza computazionale, “DeepSeek” ha di fatto rivoluzionato l’economia dello sviluppo dell’IA.

 

Articoli Correlati

Pulsante per tornare all'inizio