News TensorRT-LLM di NVIDIA moltiplica le performance di inferenza delle GPU
1' 46''
12/09/2023

NVIDIA ha annunciato il rilascio di TensorRT-LLM, un software che potenzia le performance delle GPU per l'inferenza degli LLM .

TensorRT-LLM di NVIDIA moltiplica le performance di inferenza delle GPU

NVIDIA ha annunciato il rilascio di TensorRT-LLM, un software open-source per ottimizzare e accelerare le operazioni di inferenza dei grandi modelli linguistici.

Sviluppata in collaborazione con Meta, Anyscale, Cohere, Grammarly e altre compagnie, la nuova soluzione comprende un compiler per deep learning TensorRT, kernel ottimizzati, step per il pre- e post-processing e primitive per la comunicazione multi-GPU/multi-nodo per moltiplicare le performance delle GPU.

Stando ai benchmark condivisi da NVIDIS, una GPU H100 con TensorRT-LLM si è rivelata 8 volte più veloce rispetto a una A100 per un task di riassunto del testo, e 4 volte più veloce rispetto a una H100 senza software. In un test con Llama 2, il modello linguistico di Meta, la soluzione ha permesso un'accelerazione delle performance di 4,6 volte in più rispetto a una A100.

NVIDIA
Confronto tra A100 e H100 con e senza TensorRT-LLM con Llama 2

Il miglioramento delle performance incide positivamente anche sui consumi elettrici delle GPU: con TensorRT-LLM su H100 i costi si riducono di 3 volte rispetto a quelli di A100 durante l'inferenza di Llama 2 (70 miliardi di parametri). 

In-flight batching

Una delle caratteristiche principali della soluzione NVIDIA è l'in-flight batching, una tecnica per ottimizzare la schedulazione dei task e l'esecuzione parallela delle richieste batch. 

Con questa tecnica, invece di aspettare che l'intero batch di richieste finisca per passare al successivo, TensorRT-LLM rimuove immediatamente le sequenze terminate dal batch e inizia l'esecuzione delle nuove richieste mentre le precedenti sono ancora in corso.

Questo approccio consente di sfruttare in modo più efficiente le risorse GPU e aumentare la capacità di elaborazione, arrivando a raddoppiare il throughput su un benchmark con GPU Tensor Core H100.

Pixabay
processore

Essendo modulare e open-source, il software può essere esteso con nuove funzionalità per la definizione, l'ottimizzazione e l'esecuzione di nuove architetture.

TensorRT-LLM è disponibile in early access e arriverà sul mercato globale nel corso delle prossime settimane, integrato nel framework NeMo per la distribuzione dei grandi modelli generativi.

Il software include versioni ottimizzate e pronte all'uso degli LLM più usati, tra i quali LLama 2, GPT-2, GPT-3, Falcon, Mosaic MPY e Bloom. Ognuno di essi può essere utilizzato tramite API Python fornite dal software. 

Potrebbe interessarti anche

News

Le nuove restrizioni sull'export dei chip potrebbero minare l'impero di NVIDIA

Le nuove restrizioni sull'esportazione dei chip in Cina mettono a rischio la posizione competitiva di NVIDIA, favorendo...

News

Microsoft potrebbe presentare a breve il suo primo chip per l'IA

Secondo alcune indiscrezioni, Microsoft starebbe per presentare il suo primo chip dedicato all'IA. L'annuncio è atteso d...

Opinioni

L'impatto di GH200 di NVIDIA sul mercato dei chip e sull'IA

Il nuovo superchip Grace Hopper GH200 di NVIDIA potrebbe portare a un cambiamento significativo nel mondo dell'intellige...

News

Snowflake e NVIDIA aiutano le imprese a sviluppare modelli generativi proprietari

Snowflake e NVIDIA hanno annunciato una collaborazione volta a supportare le imprese nello sviluppo di modelli di IA gen...