Progetto
AI4KNOWLEDGE

Analisi semantica dei testi

Obiettivo

Lo scopo di questa soluzione è la creazione di uno strumento, basato su tecniche di intelligenza artificiale, che permetta di:

  • Estrarre testo, tabelle, immagini e altri elementi costitutivi da pagine di giornale, pubblicazioni scientifiche, manuali, schede tecniche, etc.;
  • Tradurre, tramite OCR, immagini contenenti testo in testo vero e proprio;
  • Sottoporre i testi ottenuti ad analisi semantica, con il duplice scopo di ottenere l’indicizzazione dei contenuti e di ricostruire il testo in forma web friendly;
  • Creare un sistema di risposta alle domande che risponda automaticamente alle domande poste attraverso il linguaggio naturale, estraendo i contenuti dalla knowledge base creata nel punto precedente.

Pipeline

Image Processing

L’immagine subisce una serie di trasformazioni che servono a identificare le regioni di interesse.

Text extraction & OCR

Tesseract è un OCR open source La versione utilizzata in AIVision è basata su reti neurali di tipo LSTM. È in grado di riconoscere 33 lingue.

Text validation

I] Magazzino cooperativo é un albero magnifico, i cul rami s’allargano e si rinnovano ogni di pil; 6 uno splendido fuoco che riscalda e riverbera la sua luce dappertutto. Ben a ragione gli operai di Rochdale assunsero il nome di Probi Pionieri; il pioniere é intrepido americano che apre i primi solchi nelle vergini foreste, e questi Pionieri di Rochdale hanno schiuso alle elassi lavoratrici la via dell’avvenire.

Luzzatti

Il testo viene ricomposto su un’unica riga, senza ritorno a capo, i caratteri non alfanumerici e la punteggiatura vengono rimossi le stringhe di meno di due caratteri vengono rimosse le parole chiave vengono rimosse, riducendo il testo a un elenco di parole chiave ogni parola chiave è convalidata su un dizionario di circa 1 milione di parole. Le parole non valide vengono sostituite dalla parola del dizionario più vicina in base a criteri misurabili.

Elenco finale di parole chiave

=

dominio semantico del frammento di testo

Question answering

Rispondere alle domande non è più cercare una stringa in un testo, ma un concetto in un corpo di conoscenza (ontologia), tenendo conto del contesto.

L’insieme di tutti i contesti semantici raccolti dai vari frammenti di testo è immagazzinato in un database con il livello di accuratezza della pagina, e costituisce l’ontologia su cui si basano le risposte fornite all’utente.

Le domande vengono inoltrate al database, che utilizza la ricerca a testo completo per cercare le risposte ordinate in base alle classifiche.

Richiedi una demo online

Un nostro consulente ti assisterà con la spiegazione.

Compilando il modulo sovrastante e inviando una richiesta di informazioni, dichiaro di aver letto la privacy policy di ATG Artificial Intelligence SRL e accetto i termini.