Il costo dell'intelligenza artificiale rappresenta oggi uno dei principali ostacoli alla sua diffusione su larga scala, ma una rivoluzionaria ricerca condotta dal Weizmann Institute of Science, Intel Labs e d-Matrix promette di ribaltare questa situazione. Gli scienziati hanno sviluppato una serie di algoritmi innovativi che potrebbero ridurre drasticamente i costi operativi dei modelli linguistici di grandi dimensioni (LLM), richiedendo modifiche minime al codice esistente. La soluzione, presentata alla International Conference on Machine Learning, offre un nuovo approccio al concetto di "speculative decoding" che potrebbe accelerare la generazione di token fino a 2,8 volte rispetto ai metodi tradizionali.
La sfida del vocabolario incompatibile
Tradizionalmente, il speculative decoding funziona come il sistema di scrittura predittiva degli smartphone moderni: un modello "draft" più piccolo e veloce anticipa le risposte di modelli più grandi e sofisticati. Quando la previsione è corretta, si ottiene un significativo risparmio computazionale; in caso contrario, il modello principale interviene direttamente. Questo processo garantisce una qualità invariata dell'output finale, rappresentando un vantaggio notevole rispetto ad altre tecniche di ottimizzazione.
Il problema principale di questo approccio risiedeva nella necessità di compatibilità tra i vocabolari dei due modelli. "A meno che il modello che si sta utilizzando non abbia una variante più piccola, sfruttare il speculative decoding ha spesso richiesto l'addestramento di modelli draft specializzati", spiega Nadav Timor, dottorando presso il Weizmann Institute. La situazione si complicava ulteriormente quando venivano rilasciate nuove versioni dei modelli principali, come Llama, richiedendo un nuovo addestramento completo dei modelli draft.
Tre algoritmi per superare i limiti
La soluzione proposta dai ricercatori si articola in tre distinti algoritmi, ciascuno progettato per affrontare specifici aspetti del problema. Il primo, denominato Token-Level-Intersection (TLI), opera essenzialmente come un sistema di confronto tra i vocabolari dei due modelli, identificando quali parole il drafter dovrebbe evitare. In questo modo, il modello draft genera previsioni utilizzando esclusivamente token presenti anche nel vocabolario del modello target.
Il secondo algoritmo, String-Level Exact Match (SLEM), adotta un approccio più sofisticato fungendo da strato di traduzione tra i tokenizer dei due modelli. I tokenizer rappresentano il meccanismo attraverso cui i modelli linguistici suddividono parole, punteggiatura e altre espressioni in unità comprensibili. L'algoritmo SLEM genera una stringa completa di token che viene convertita in un formato intermedio - testo semplice - comprensibile a entrambi i modelli.
"Questo approccio sostituisce il metodo di verifica standard del speculative decoding con una corrispondenza esatta delle stringhe, che rappresenta un metodo di verifica ancora più rigoroso", precisa Timor. La sfida principale consisteva nel gestire le differenze nel modo in cui i tokenizer elaborano il testo, che potrebbero introdurre modifiche quasi impercettibili. Per esempio, spazi vuoti iniziali potrebbero essere compressi diversamente dai due sistemi.
Implementazione immediata e risultati concreti
L'aspetto più rivoluzionario di questa ricerca risiede nella sua applicabilità immediata. Entrambi gli algoritmi TLI e SLEM sono già integrati nella libreria Transformers di Hugging Face, uno dei framework più utilizzati per l'esecuzione di LLM su scala industriale. "Per gli sviluppatori si tratta di modificare una singola riga di codice", sottolinea Timor, evidenziando la semplicità di implementazione.
I risultati ottenuti variano significativamente a seconda dell'applicazione specifica. L'algoritmo TLI ha dimostrato accelerazioni fino a 1,7 volte rispetto alla decodifica autoregressiva convenzionale, mentre SLEM ha raggiunto miglioramenti fino a 2,8 volte, particolarmente efficaci in compiti che richiedono contesti lunghi come la sintesi di testi e la programmazione. La scelta tra i due algoritmi dipende dalla configurazione specifica: "A volte funziona meglio il primo, a volte il secondo. È necessario testare sulla propria configurazione specifica", consiglia il ricercatore.
Verso vocabolari più efficienti
La ricerca non si ferma qui. Il team ha sviluppato un terzo algoritmo, String-Level Rejection Sampling (SLRS), progettato per migliorare i tassi di accettazione relativamente bassi associati agli approcci basati sulla verifica delle stringhe. Questo algoritmo utilizza un drafter generalizzato che considera le probabilità sulle stringhe piuttosto che sui token, dimostrando teoricamente di aumentare i tassi di accettazione.
Tuttavia, l'implementazione pratica presenta sfide computazionali che richiedono una riprogettazione dei vocabolari. "I vocabolari stanno diventando enormi. Llama 4, per esempio, conta circa 200.000 token", osserva Timor, aggiungendo che la maggior parte di questi non viene effettivamente utilizzata, aumentando inutilmente la latenza. Il team sta attualmente lavorando per ridurre le dimensioni dei vocabolari, una ricerca che potrebbe portare a ulteriori miglioramenti significativi nell'efficienza dei modelli linguistici.