Una delle sfide più grandi per i modelli NLP è analizzare e comprendere testi complessi, come quelli scientifici, e ottenere l'informazione necessaria.
Galactica è un modello open-source sviluppato da Lilmeta che prometteva proprio questo: risolvere il problema dell'information overload dei testi tecnico-scientifici processandoli in maniera intelligente, ovvero catalogandoli in modo efficiente per estrarre solo il contenuto davvero importante.
L'obiettivo di Galactica era fornire una base di conoscenza accessibile e facile da consultare, che potesse rispondere in poco tempo a una grande varietà di domande. Il modello permetteva per esempio di descrivere le formule matematiche in linguaggio naturale, o cercare un paper sulla base di uno specifico input dell'utente.
L'algoritmo, addestrato su più di 48 milioni di testi e contenuti scientifici, aveva accesso a un'enorme base di conoscenza da cui poteva estrapolare le informazioni rilevanti ai bisogni dell'utente.
Uno degli step più difficili del processo era individuare l'ipotesi, le varie fasi del ragionamento e infine la conclusione. Galactica mirava a isolare questi pezzi di informazione per ottimizzare le ricerche ed elaborare esattamente ciò che serviva.
Il modello però non ha avuto il successo che sperava. Nel paper pubblicato dall'azienda si specifica che "non ci sono garanzie sulla veridicità e attendibilità dei risultati di Galactica, anche se è stato addestrato su un dataset così ampio e di qualità".
La demo dell'algoritmo, resa pubblica pochi giorni fa, non ha passato i test: il modello non è riuscito a produrre degli output sufficientemente "intelligenti" e precisi. Nonostante il testo generato a primo acchito sembri valido, si tratta in realtà di frasi composte da parole in probabilità.
Galactica si tratta comunque di un ottimo punto di partenza per risolvere un problema complesso come questo.