Amazon ha annunciato una nuova funzionalità di Comprehend, il servizio di elaborazione di linguaggio naturale per elaborare documenti, identificare le informazioni salienti nei testi e indicizzarle.
Il servizio può identificare le entità chiave dei documenti, i dati personali, il sentiment dominante del file (positivo, negativo, neutrale o misto) e analizzare la sintassi dei testi. Finora Comprehend era in grado di lavorare soltanto con documenti già processati in formato UTF-8.
La nuova feature, invece, permette agli utenti di classificare informazioni da documenti PDF, file Word e immagini senza prima estrarre il testo. Non è più necessario effettuare il preprocessing dei documenti e trasformarli in un formato "machine-readable", col rischio di perdere informazione: Comprehend è ora in grado di classificare anche formati semi-strutturati.
La novità di Comprehend unisce le funzionalità dell'OCR - Riconoscimento Ottico dei Caratteri alle capacità di Natural Language Processing per estrarre entità di business e codici prodotto dai testi, classificandoli in categorie di facile consultazione.
Gli utenti AWS possono definire un classificatore custom per organizzare la conoscenza in classi definite da loro stessi. Prima dell'utilizzo, il classificatore va addestrato su un set di dati esclusivamente in formato plain-text. Dopo la fase di addestramento è possibile procedere con l'estrazione delle informazioni, sia in maniera sincrona (per un'analisi real time) che asincrona.
Tra gli esempi di utilizzo ci sono la classificazione delle richieste di supporto per indirizzarle al team giusto, o delle email per tenere traccia in maniera ordinata delle comunicazioni dei clienti. Amazon Comprehend può essere utilizzato anche insieme a Transcribe per convertire le telefonate in testo e poi classificarne il contenuto.
È possibile utilizzare più classificatori personalizzati per classificare categorie di dati differenti, ognuno operante su un certo servizio o su un'area di business specifica. Al momento un modello Comprehend è in grado di lavorare con un massimo di 25 entità custom alla volta.