Microsoft ha reso open-source LMOps, un framework sviluppato da un team di ricercatori dell'azienda, pensato per semplificare e promuovere nuove best practice di sviluppo dei modelli generativi.
Il progetto di ricerca consiste in una serie di paper in cui i ricercatori illustrano nuove tecniche per migliorare le capacità dei modelli, in particolare per ottimizzare gli input forniti dagli utenti e aumentare il numero di prompt che il modello può gestire in fase di addestramento, così che possa consumare sequenze più estese di input.
Ottimizzare gli input per la generazione di immagini
Uno dei problemi più sentiti quando si usano i modelli generativi text-to-image è la differenza tra il risultato atteso e il risultato effettivo, non tanto per la qualità dell'immagine prodotta quanto per il rispetto delle "intenzioni" dell'utente.
Chi sta lavorando con questi modelli si sarà accorto che non sempre il modello riesce a cogliere tutte le sfumature che si volevano dare all'immagine: il risultato, seppur di alta qualità, si discosta da ciò che l'utente aveva in mente.
I ricercatori hanno sviluppato Promptist, un'interfaccia per Stable Diffusion v1-4, che ottimizza l'input utente trasformando il testo in un input più comprensibile per il modello e che al contempo riesca a produrre un'immagine dettagliata e di qualità. Ciò che fa Promptist è parafrasare il testo in input per permettere al modello di generare immagini che si avvicinino il più possibile alle intenzioni dell'utente.
Nel caso, per esempio, dell'input "A rabbit is wearing a space suit", ciò che produce l'interfaccia è "A rabbit is wearing a space suit, digital Art, Greg
rutkowski, Trending cinematographic artstation": Promptist arricchisce il testo con ulteriori dettagli che permettono da una parte di rispettare la richiesta dell'utente, e dall'altra di produrre un'immagine di elevata qualità e ben dettagliata.
Consumare lunghe sequenze di input
Gli ultimi modelli sul mercato possiedono l'abilità di in-context learning, ovvero sono in grado di svolgere dei task per cui sono stati addestrati con pochi esempi. L'apprendimento in questo caso avviene senza aggiornare manualmente i parametri dell'algoritmo, che impara da solo dal contesto di input.
Al momento i modelli generativi sono in grado di consumare input di lunghezza ridotta. Ciò limita significativamente il potenziale dell'in-context learning, che finora è stato testato con un numero esiguo di esempi.
Per ovviare al problema, i ricercatori di Microsoft hanno sviluppato lo structured prompting, un approccio che supera i limiti di lunghezza in input e permette ai modelli di scalare nell'abilità di in-context learning, riuscendo a lavorare anche con migliaia di esempi.
Invece di concatenare gli esempi uno dopo l'altro, come avviene nel prompting convenzionale, l'approccio di Microsoft divide gli esempi in diversi gruppi, ognuno dei quali viene codificato singolarmente dal modello. L'encoding, in questo modo, ritorna a una complessità lineare.
Il progetto di Microsoft vuole supportare lo sviluppo dei large language model, facilitando le fasi di addestramento e migliorando anche la qualità dei risultati dei modelli generativi.