OpenAI e Broadcom hanno annunciato Jalapeño, un nuovo chip progettato specificamente per l'inferenza LLM su larga scala nei data center. Il progetto nasce per rispondere a una delle pressioni più concrete dell'attuale fase dell'intelligenza artificiale generativa: portare modelli linguistici sempre più usati dentro infrastrutture capaci di sostenere volumi elevati, con un rapporto più favorevole tra prestazioni e consumo energetico.
Il dato operativo più netto è la tempistica: entrambe le aziende affermano che i chip Jalapeño saranno distribuiti nei data center entro la fine dell'anno. Non si tratta, nelle intenzioni dichiarate, di un'iniziativa isolata. OpenAI e Broadcom presentano questo primo chip come la prima generazione di un percorso di lungo periodo, destinato a essere affinato nel tempo man mano che cambieranno modelli, prodotti e carichi di lavoro.
Broadcom definisce Jalapeño un ASIC, cioè un circuito integrato progettato per uno scopo specifico. In questo caso lo scopo è l'inferenza dei large language model, la fase in cui un modello già addestrato risponde alle richieste degli utenti o delle applicazioni. Il chip, secondo Broadcom, è stato disegnato da zero sulla base di indicazioni dettagliate emerse dal confronto con i ricercatori di OpenAI, e il suo sviluppo è stato guidato anche dalla roadmap interna di OpenAI per modelli e prodotti futuri.
Il ciclo di progettazione e produzione ha richiesto nove mesi, una finestra che segnala quanto la domanda di capacità computazionale stia spingendo le aziende dell'AI a intervenire direttamente sul livello hardware. L'obiettivo dichiarato è ottenere un componente più specializzato rispetto ai chip su cui oggi girano molti sistemi di inferenza nei data center esistenti. In altri termini, Jalapeño nasce per un carico di lavoro preciso, non per essere un acceleratore generalista.
OpenAI sostiene che i primi test mostrano per Jalapeño una performance per watt sensibilmente migliore rispetto allo stato dell'arte attuale. La società precisa però che la misurazione delle prestazioni non è ancora conclusa e che un rapporto tecnico più dettagliato sarà presentato nei prossimi mesi. È un passaggio prudente: l'annuncio fissa la direzione industriale del progetto, ma lascia ancora aperta la valutazione tecnica completa, che sarà decisiva per capire quanto il chip possa incidere realmente sui costi operativi e sulla scalabilità dei servizi.
Per OpenAI, nota per ChatGPT e Codex, Jalapeño si inserisce in una strategia più ampia: possedere una quota crescente dello stack che sostiene modelli e prodotti. La verticalizzazione può ridurre la dipendenza da fornitori esterni come NVIDIA e, almeno nelle intenzioni, consentire ottimizzazioni più strette tra software, modelli e hardware. In un settore in cui la disponibilità di calcolo è diventata un vincolo competitivo, controllare più livelli dell'infrastruttura significa poter pianificare con maggiore coerenza capacità, efficienza e sviluppo dei servizi.
Il contesto è quello di una pressione globale sulla capacità di calcolo. OpenAI e i suoi concorrenti guardano al silicio custom come a uno degli strumenti possibili per estrarre più capacità da infrastrutture limitate, mentre le aziende impegnate nei modelli di frontiera competono per risorse di data center non infinite. L'inferenza, in particolare, è destinata a pesare sempre di più se l'uso di assistenti, strumenti di coding e applicazioni aziendali basate su LLM continuerà a crescere.
Per Broadcom, già fornitore affermato nel mercato dei semiconduttori per infrastrutture di calcolo, Jalapeño consolida una linea di business in espansione: chip personalizzati per hyperscaler e team impegnati nello sviluppo di modelli frontier durante il boom dell'AI. La partnership con OpenAI fotografa un passaggio industriale ormai evidente: l'AI generativa non è più solo una competizione tra modelli, ma anche tra architetture di calcolo, efficienza energetica e capacità di mettere in produzione hardware disegnato intorno ai carichi reali.