Apple e NVIDIA uniscono le forze per migliorare la velocità dei LLM
In una mossa che sottolinea l’importanza della collaborazione nel campo dell’intelligenza artificiale, Apple e NVIDIA hanno lavorato insieme per migliorare le prestazioni dei modelli di linguaggio avanzati (LLM). Gli ingegneri di Apple hanno condiviso i dettagli di questa collaborazione in un post sul blog, in cui si illustra l’obiettivo di migliorare la generazione di testo grazie all’integrazione di tecnologie innovative.
Il punto focale è la tecnica ReDrafter, sviluppata da Apple e resa open source all’inizio di quest’anno. Questo metodo combina due elementi chiave: il beam search, che esplora diverse possibilità per migliorare la qualità delle previsioni, e il dynamic tree attention, che consente di gestire le opzioni in tempo reale in modo ottimale. Questa combinazione consente di ottenere risultati più rapidi e prestazioni all’avanguardia.
Nonostante i risultati promettenti, Apple ha deciso di collaborare con NVIDIA per rendere ReDrafter operativo. La tecnica è stata integrata nel framework TensorRT-LLM di NVIDIA, uno strumento progettato per velocizzare l’esecuzione di modelli di linguaggio avanzati su GPU NVIDIA.
Gli ingegneri di NVIDIA hanno adattato il loro framework per accoglierla. Come spiegato nel blog di Apple, l’integrazione di ReDrafter ha richiesto la creazione di nuovi operatori e l’ottimizzazione di quelli esistenti, migliorando la capacità del framework di supportare modelli complessi e tecniche avanzate di decodifica.
I risultati sono sorprendenti. In un benchmark che utilizza un modello di produzione con decine di miliardi di parametri, l’implementazione di TensorRT-LLM con ReDrafter ha permesso di accelerare la generazione di token al secondo per la decodifica greedy di 2,7 volte. Ciò non solo riduce significativamente la latenza percepita dagli utenti, ma consente anche di utilizzare meno GPU, riducendo i costi operativi e il consumo energetico.
Gli ingegneri Apple hanno sottolineato l’importanza di queste innovazioni per le applicazioni di produzione basate su LLM, che richiedono un’efficienza computazionale sempre maggiore. Grazie a ReDrafter e alla sua integrazione nel framework di NVIDIA, gli sviluppatori possono ora beneficiare di una generazione di testo più rapida, migliorando l’esperienza degli utenti finali e ottimizzando l’uso delle risorse disponibili.