Con la diffusione dell'intelligenza artificiale e il potenziamento degli LLM, gli esperti di robotica sono tornati a chiedersi se le ultime innovazioni possano davvero risolvere le questioni più problematiche del settore e abilitare l'industria del futuro.
Nishanth J. Kumar, ricercatore nel campo dell'IA applicata ai robot, spiega che la questione che da sempre preme i ricercatori è riuscire a sviluppare robot general-purpose che siano in grado di eseguire in autonomia una varietà di attività in qualsiasi ambiente, sia casalingo che lavorativo.
Se prima questo obiettivo era irraggiungibile, adesso, coi recenti progressi nello sviluppo di grandi modelli, sembra essere possibile migliorare le capacità dei robot addestrandoli su dataset molto più grandi, scalando le architetture attuali.
Molti ricercatori sono ottimisti circa questa possibilità, ma molti altri hanno avanzato delle argomentazioni che sembrano confermare l'impossibilità di raggiungere questo risultato.
Perché lo scaling potrebbe funzionare...
Tra le argomentazioni a favore del successo dello scaling delle architetture c'è l'assunzione che se ha funzionato per la computer vision e il natural language processing, allora dovrebbe funzionare anche per la robotica.
I ricercatori sono ottimisti in tal senso e ritengono che anche nel mondo della robotica gli LLM potrebbero far emergere nuove capacità nei robot. Kumar sottolinea che esistono già dei risultati promettenti e, anche se sono ancora in uno stadio preliminare, queste evidenze potrebbero davvero rivoluzionare il mondo della robotica.
Molti sostengono anche che i progressi nell'elaborazione dei dati, della computazione e in questo caso soprattutto degli LLM sono opportunità che andrebbero colte a prescindere per trarne vantaggio.
Un'altra argomentazione a favore dello scaling come rivoluzione nella robotica riguarda il fatto che, sebbene il numero di task che possiamo pensare possa svolgere un robot è molto elevato e le attività potrebbero essere complesse, nella realtà quotidiana sarebbero molto più semplici.
Anche in questo caso si torna al discorso del "se ha funzionato per l'NLP, perché non per la robotica?": applicando le capacità degli LLM su scala anche nel mondo della robotica, potremmo riuscire a sviluppare un robot generalista con relativa semplicità.
Infine, un'altra importante argomentazione a favore del successo dello scaling riporta che gli LLM sono effettivamente il miglior approccio per sviluppare capacità di "senso pratico" anche nei task più semplici. Kumar fa l'esempio di un robot che deve appoggiare una tazza sul tavolo: di per sé il task è semplice, ma bisogna considerare tutta una serie di possibili impedimenti come la presenza di altri oggetti sul tavolo o la necessità che la tazza sia orientata in una certa maniera.
Il "senso pratico" sviluppato tramite gli LLM può gestire facilmente queste casistiche e fare la differenza nel successo o nel fallimento di un task.
... e perché invece potrebbe fallire
Le motivazioni che spingono molti ricercatori a non credere nello scaling come soluzione adatta al mondo della robotica ricadono in due macrocategorie: da una parte c'è chi sostiene che non sia pratica, e dall'altra chi ritiene che, anche se ha funzionato per la computer vision e l'NLP, non significa che funzionerà per il mondo dei robot.
Nel primo caso, i ricercatori sostengono che non ci sono abbastanza dati adatti ad addestrare LLM specifici per i robot e che creare dataset adeguati sia un dispendio troppo grosso di soldi e tempo. La computer vision e l'NLP possono contare su tantissimi dati perché le persone comunicano tutti i giorni sul web e caricano contenuti; al contrario, non ci sono altrettanti dataset su coppie di input sensoriali e azioni corrispondenti, e raccoglierne a sufficienza non è semplice.
Un'altra importante sfida che rende poco pratica la scelta degli LLM è l'eterogeneità dei robot: queste macchine sono molto diverse tra loro per forma, grandezza e altri fattori intrinseci, e ciò significa che andrebbero raccolti dati per ciascun tipo.
Similmente, anche gli ambienti in cui devono lavorare i robot sono molto diversi tra loro: se volessimo davvero creare dei robot "general purpose", essi dovrebbero essere in grado di lavorare in qualsiasi luogo si trovino, cioè in qualsiasi tipo di casa, ufficio o industria.
Non bisogna dimenticare poi che, visto che il dataset per i robot è molto più ampio che per gli altri ambiti, addestrare un modello su un insieme così vasto di dati comporterebbe dei consumi molto elevati e di conseguenza costi che pochissimi potrebbero permettersi di affrontare.
Guardando all'altra categoria di argomentazioni, diversi ricercatori sottolineano che le applicazioni robotiche reali, sia industriali che casalinghe, richiedono una precisione e un'affidabilità di almeno il 99%, una percentuale che attualmente gli LLM non raggiungono neanche nei task di NLP.
Nella robotica più che negli altri ambiti è essenziale che le macchine siano fondamentalmente perfette e che abbiano un tasso di successo che sia oltre il 99%; non è chiaro se con lo scaling si possa davvero raggiungere questo livello di precisione.
Un esempio immediato del possibile fallimento è quello delle macchine autonome: diverse compagnie, in particolare Tesla e Waybe, hanno addestrato i propri sistemi per raggiungere un livello 5 di autonomia e, pur avendo tutti i dati e il budget di cui hanno bisogno, non sono riuscite a garantire sistemi di guida autonoma sufficientemente affidabili.
Infine, la maggior parte dei task robotici di maggiore interesse richiede di eseguire numerose azioni corrette in sequenza nell'ordine di migliaia anche per attività più semplici, anche con un solo braccio robotico da controllare.
È risaputo che il numero di possibili errori tende ad aumentare con l'incremento del numero di azioni; gli LLM hanno già dimostrato questa tendenza: pur essendo piuttosto bravi a scrivere testi, quando si tratta di sequenze più lunghe o intere storie tendono a produrre passaggi incoerenti, ripetersi e deviare dall'input iniziale.
Qual è la soluzione?
Nonostante molti ricercatori sostengano che risolvere i problemi della robotica con lo scaling degli LLM non sia possibile, la maggior parte della community ritiene che al momento lo scaling è la direzione più promettente e che vale comunque la pena seguire questo percorso e trarre vantaggio da ogni progresso, anche minimo.
Kumar sottolinea inoltre che ci si dovrebbe concentrare sullo sviluppo di sistemi di facile utilizzo e che possano essere usati per risolvere problemi reali e quotidiani. Uno dei motivi per cui la robotica generalista sembra non fare progressi è perché i robot spesso vengono tarati con specifiche legate a determinati ambienti, spesso industriali, che sono per natura non generalizzabili.
Per superare i limiti attuali è anche necessario comprenderli a fondo, ma molti ricercatori lamentano il fatto che numerosi approcci di apprendimento dei robot non approfondiscono i risultati negativi, e ciò porta molti team a fare gli stessi sforzi di altri e ripetere gli stessi errori. Condividere i risultati negativi nei paper è un aiuto fondamentale per far progredire la community.
Infine, Kumar consiglia di non focalizzarsi sempre sulle stesse soluzioni e cercare di esplorare altre strade: concentrarsi su un unico o su pochi approcci preclude tutte le altre possibilità, tra le quali potrebbe esserci quella giusta.
"In fondo, tutti gli approcci attuali che fanno parte del dibattito sono stati resi possibili solo perché i pochi ricercatori che li hanno introdotti hanno osato pensare controcorrente rispetto al loro tempo" ha concluso Kumar.