Il framework del MIT per aiutare i robot a eseguire attività complesse

L'Improbabile AI Lab, un team di ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT, ha sviluppato un nuovo framework multimodale che definisce dei piani di task volti a guidare i robot in attività più o meno complesse che richiedono una certa gerarchia di azioni.

Se per gli esseri umani un'attività come lavare i piatti è semplice e intuitiva, per i robot non è la stessa cosa: affinché la svolgano correttamente, è necessario specificare una serie di micro-step ("prendi la spugna", "prendi il piatto", ecc...) e pianificare accuratamente l'ordine dei singoli task.

Il framework del MIT, Compositional Foundation Models for Hierarchical Planning (HiP), si basa su diversi modelli, ognuno di essi addestrato su diverse tipologie di dato. HiP sfrutta i modelli linguistici come "plan proposer" in grado di analizzare la richiesta utente e decomporla in sotto task.

Il framework usa anche i modelli text-to-video per elaborare le caratteristiche fisiche dell'oggetto e la semantica riguardo come gli oggetti dovrebbero muoversi per completare determinati task; grazie a questa capacità, per ogni sub-task HiP genera diverse traiettorie possibili in base all'obiettivo da raggiungere.

La soluzione dei ricercatori mette in gioco anche un action planner che utilizza dei modelli visivi addestrati su immagini egocentriche, ovvero ricavate da telecamere indossabili, per definire le azioni necessarie a eseguire un piano visivo basato sull'ambiente circostante.

Pixabay

Infine, ottenute le informazioni riguardo i sotto task da eseguire, le immagini e le azioni possibili, il framework mette in atto un processo di ottimizzazione iterativa per soddisfare i requisiti delle tre classi di modelli e individuare la gerarchia di azioni ottimale.

I risultati dei test

Stando ai dati condivisi dai ricercatori, HiP ha dimostrato capacità molto superiori a framework simili, con tassi di successo oltre il 70%. Il team del MIT ha messo alla prova il framework in attività quali impilare dei blocchi colorati, spostare specifici oggetti in una scatola e una serie di azioni legate alla cucina come accendere i fornelli e il microonde.

Il successo di HiP sta nell'uso di tre tipi di modelli base che si occupano di gestire aspetti diversi di un dato task, rendendo il processo decisionale più facile da definire.

"Cciò che vogliamo fare è prendere i modelli pre-addestrati esistenti e farli interfacciare con successo tra loro" ha spiegato Anurag Ajay, dottorando presso il Dipartimento di Ingegneria Elettrica e Informatica (EECS) del MIT, affiliato al CSAIL e co-autore della ricerca. "Invece di portare un modello a fare tutto, ne combiniamo diversi che sfruttano varie tipologie di dati. Se usati in combinazione, migliorano il processo decisionale robotico e possono potenzialmente aiutare a svolgere compiti in casa, nelle fabbriche e nei cantieri".

Pixabay

La modalità di ottimizzazione iterativa permette al framework di "ragionare" sulle possibilità, generando un feedback a ogni stage per generare un risultato quanto più pratico ed efficace possibile.

"Quello che Anurag ha dimostrato è un proof-of-concept di come possiamo prendere modelli addestrati su compiti e modalità di dati separati e combinarli in modelli per la pianificazione robotica" ha affermato afferma Pulkit Agrawal, professore assistente del MIT in EECS e direttore dell'Improbable AI Lab, co-autore della ricerca insieme ad Ajay. "In futuro, HiP potrebbe essere ampliato con modelli pre-addestrati in grado di elaborare il tatto e il suono per generare pianificazioni migliori".

News Il framework del MIT per aiutare i robot a eseguire attività complesse

Marina Londei

Tempo di lettura: 2' 47''

Pubblicato il: 15/01/2024

I risultati dei test

Tags

Condividi questo contenuto

Anche l'industria del caffè evolve grazie all'IA

Persona AI, la nuova startup di robot umanoidi

Gli LLM possono risolvere le sfide della robotica general purpose?

Amazon e il fondo da 1 miliardo di dollari per combinare IA e robotica

News Il framework del MIT per aiutare i robot a eseguire attività complesse Marina Londei Tempo di lettura: 2' 47'' Pubblicato il: 15/01/2024

I risultati dei test

Tags

Condividi questo contenuto

News Il framework del MIT per aiutare i robot a eseguire attività complesse

Marina Londei

Tempo di lettura: 2' 47''

Pubblicato il: 15/01/2024