Finora Apple non si è esposta molto in tema di intelligenza artificiale, ma le cose stanno per cambiare: la compagnia di Cupertino ha pubblicato due nuovi paper di ricerca dove illustra nuove tecniche che permetteranno di creare esperienze visive immersive e di eseguire modelli complessi di intelligenza artificiale su dispositivi consumer come iPhone e iPad.
Lo ha riportato VentureBeat, specificando che con queste due innovazioni Apple potrebbe gettare le basi per lo sviluppo di servizi e applicazioni che sfruttano gli LLM in modi finora considerati impraticabili.
HUGS rivoluziona la generazione di avatar 3D
HUGS (Human Gaussian Splats) è un framework neurale di rendering in grado di elaborare dei video e generare nuove animazioni usando il soggetto rappresentato.
"Il nostro metodo elabora un video monoculare (ripreso da una sola videocamera, n.d.r.) con un ristretto numero di frame (50-100) e impara a distinguere la scena statica e un avatar umano completamente animabile in 30 minuti" si legge nel paper.
La rappresentazione neurale del soggetto consente di inserirlo in nuove scene, animandolo in nuove pose. Stando ai benchmark di Apple, HUGS è 100 volte più veloce di tecniche come Vid2Avatar e NeuMan.
Ciò che stupisce, oltre alle performance del framework, è la possibilità di eseguirlo su dispositivi mobili, permettendo agli utenti di ricreare nuove scene 3D a partire da un soggetto già ripreso.
HUGS presenta ancora dei limiti, per lo più legati a SMPL, il modello di shaping utilizzato per isolare le forme del corpo del soggetto e riproporle in nuove pose. Un altro fattore limitativo riguarda l'illuminazione della scena: il modello non tiene conto della luce ambientale e ciò potrebbe alterare la qualità e il realismo del risultato finale.
Eseguire gli LLM su dispositivi con memoria limitata
Nel secondo paper Apple presenta un nuovo metodo per eseguire gli LLM su dispositivi con memoria limitata che sfrutta la memoria flash per memorizzare i parametri del modello e renderli disponibili non appena ce n'è bisogno.
Al momento l'approccio standard carica l'intero modello nella DRAM per l'inferenza, ma i modelli odierni richiedono in media più di 14GB di memoria soltanto per caricare i parametri, superando di gran lunga le capacità della maggior parte dei dispositivi.
"Il nostro metodo prevede la creazione di un modello di costo di inferenza che si armonizza con il comportamento della memoria flash, permettendoci di ottimizzare in due aree critiche: la riduzione del volume di dati trasferiti dalla memoria flash e la lettura dei dati in chunk più grandi e contigui".
Durante la fase di inferenza vengono caricati i parametri dalla memoria flash, evitando di dover caricare l'intero modello sulla DRAM.
L'approccio si basa su due nuove tecniche ideate dai ricercatori di Apple: la "windowing" e la "row-column bundling". La prima consente ai modelli di riutilizzare neuroni già attivati per l'inferenza, riducendo il trasferimento di dati in memoria; la seconda permette di leggere blocchi contigui di dati più grandi, concatenando righe e colonne per aumentare il throughput.
I risultati della ricerca dimostrano che è possibile eseguire un LLM fino al doppio più grande della memoria DRAM a disposizione, consentendo un'accelerazione della velocità di inferenza di 4-5 volte rispetto ai metodi tradizionali di caricamento nella CPU e fino a 20-25 volte per la GPU.
"Il nostro lavoro non solo fornisce una soluzione a un collo di bottiglia computazionale conosciuto, ma definisce un precedente per ricerche future" affermano i ricercatori. "Crediamo che mentre gli LLM continuano a crescere in parametri e complessità, approcci come questo saranno essenziali per sfruttarne il pieno potenziale in un'ampia gamma di applicazioni e dispositivi".
Il contributo di Apple alla community globale dell'intelligenza artificiale è indubbio, ma, per quanto innovativi, le due novità devono ancora essere messie alla prova in contesti reali.
Se la compagnia riuscirà a introdurre queste innovazioni nei suoi prodotti consumer dovrà inoltre far fronte a una serie di implicazioni di privacy e sicurezza non banali per garantire un uso corretto e affidabile della tecnologia. Di certo, però, i progressi di Apple stimoleranno la ricerca di nuove strategie per portare l'intelligenza artificiale a un livello superiore, favorendo l'innovazione in diversi settori.