Tecnologia Alibaba lancia Qwen-AgentWorld per addestrare agenti AI
2' 59''
25/06/2026

Alibaba presenta Qwen-AgentWorld, modello-mondo linguistico per simulare sette ambienti e addestrare agenti AI su oltre 10 milioni di log operativi.

Alibaba lancia Qwen-AgentWorld per addestrare agenti AI

Qwen, il team di ricerca AI di Alibaba, ha rilasciato Qwen-AgentWorld il 23 giugno 2026: un modello-mondo costruito su un modello linguistico e pensato per addestrare agenti artificiali in ambienti simulati. La promessa tecnica è precisa: spingere le capacità degli agenti generalisti non solo insegnando loro a scegliere un’azione, ma anche a prevedere come l’ambiente reagirà a quell’azione.

Il sistema simula sette ambienti in un unico modello: MCP, Search, Terminal, SWE, Web, OS e Android. Per Qwen, la modellazione dell’ambiente non è un adattamento successivo, ma l’obiettivo di training fin dall’inizio. È una differenza sostanziale rispetto a molti agenti linguistici, che vengono addestrati a operare in contesti interattivi senza essere esplicitamente formati a rappresentare l’ambiente stesso.

Alla base del progetto ci sono oltre 10 milioni di log reali di operazioni compiute da agenti. Il percorso di training è articolato in tre fasi: CPT, cioè continuous pre-training, SFT, supervised fine-tuning, e RL, reinforcement learning. In questa architettura, il modello impara a prevedere ciò che accade dopo, partendo dallo stato corrente e dall’azione dell’agente, trasformando la simulazione in uno spazio di apprendimento controllabile.

Qwen-AgentWorld addestra gli agenti a prevedere prima di agire.

La logica industriale è evidente nel modo in cui Qwen descrive il simulatore. In un ambiente reale, molte situazioni sono costose, rare o difficili da riprodurre; in un ambiente simulato, invece, possono essere costruite, variate e ripetute su larga scala. Per le imprese che guardano agli agenti AI come strumenti operativi, dalla navigazione web all’esecuzione su terminale fino ai flussi software, la possibilità di stressare comportamenti e scenari prima del contatto con sistemi reali riduce una parte dell’incertezza sperimentale.

Qwen ha validato il modello in due modi. Nel primo, Qwen-AgentWorld è stato usato come simulatore al posto di un ambiente reale per il reinforcement learning di un agente AI. Il controllo libero dell’ambiente ha portato a prestazioni superiori rispetto al solo addestramento in ambiente reale. Nel secondo, il modello-mondo linguistico è stato usato come modello preaddestrato per l’agente, trasferendo capacità su sette benchmark diversi senza reinforcement learning aggiuntivo per ciascun agente.

Il simulatore concentra sette ambienti operativi in un unico modello linguistico.

Il gruppo chiarisce che l’interazione con ambienti reali resta il metodo principale per addestrare agenti AI: i modelli-mondo linguistici non vengono presentati come sostituti, né semplicemente come strumenti per abbattere i costi. La funzione è complementare. Da un lato abilitano apprendimento su larga scala e con maggiore controllo; dall’altro spostano il baricentro dall’idea di “decidere la prossima azione” alla capacità di costruire una previsione del mondo prima di agire.

Per arrivare a un modello generalista, Qwen indica tre requisiti: apprendimento in ambienti diversificati, trasferimento di competenze tra domini differenti e acquisizione di conoscenza reale tramite continuous pre-training. Il team cita anche l’integrazione di conoscenze specialistiche in ambiti come diritto, medicina, finanza e cybersecurity, con l’obiettivo di rendere le simulazioni più vicine alle condizioni operative che gli agenti incontrano fuori dal laboratorio.

La sfida passa dall’azione immediata alla comprensione dell’ambiente.

In parallelo è stato rilasciato AgentWorldBench, benchmark a sette domini che valuta la qualità della simulazione usando come riferimento risposte ottenute in ambienti reali. Su questa base, Qwen-AgentWorld-397B-A17B ha ottenuto una qualità complessiva di simulazione superiore a GPT-5.4, Claude Opus 4.8 e Gemini 3.1 Pro. Le versioni disponibili sono due: Qwen-AgentWorld-35B-A3B, con 35 miliardi di parametri totali e 3 miliardi attivi in inferenza, e la versione da 397 miliardi di parametri totali con 17 miliardi attivi. Entrambe sono distribuite su Hugging Face e ModelScope e possono essere usate tramite API di framework di inferenza comuni, inclusa una modalità server compatibile con OpenAI.

Fonte: gigazine.net

Condividi questo contenuto