DNA · ML e NLP per le indagini

INDAGINE • OPEN SOURCE INTELLIGENCE • ALLERTA TEMPESTIVA

L’IA è importante per la governance delle società e i sistemi intelligenti (agenti) possono svolgere il ruolo di strumenti cruciali contro la criminalità. Il monitoraggio, il tracciamento e l’allerta sulle attività illegali richiedono dei sistemi che possano individuare automaticamente le prove acquisite dai documenti.

Questo permette il tracciamento automatico delle attività sospette, la ricerca su di loro negli archivi del passato, la visualizzazione delle informazioni aggregate in forme intelligenti e la navigazione attraverso tale ecosistema di informazioni per indirizzare l’aggregazione intelligente (conoscenza) e l’analisi (decisioni).

Obiettivo tecnologico: Analisi dei documenti guidata dal Machine Learning e ricerca semantica nel dominio dell’investigazione
Utente di riferimento: DNA – Ministero degli Affari Interni
Timeline del Progetto: dal 2014

Processo di recupero delle informazioni

Il monitoraggio, il tracciamento e l’allerta sulle attività illegali richiedono dei sistemi che siano in grado di scoprire automaticamente le prove raccolte dai documenti.

L’estrazione automatica di informazioni specifiche del dominio favorisce la creazione di metadati semantici relativi ai concetti per gli argomenti di indagine (ad esempio eventi, luoghi e persone) e attività. Questo permette il tracciamento automatico delle attività sospette, la ricerca su di loro negli archivi del passato, la visualizzazione delle informazioni aggregate in forme significanti e la navigazione attraverso tale ecosistema di informazioni, per indirizzare l’aggregazione intelligente (conoscenza) e l’analisi (decisioni).

Tecniche di elaborazione del linguaggio naturale aumentate da algoritmi di Machine e Deep Neural Learning.

Trovare le informazioni di interesse all’interno del dominio di investigazione corrisponde a un processo di Information Retrieval (o IR), che dipende da strumenti di ricerca semantica verso le informazioni rese disponibili in modo implicito o esplicito nei documenti. Questo abbina le tecniche di Natural Language Processing incrementate con paradigmi di Machine e Deep Learning.

ESEMPI

Estrarre la conoscenza implicita

Il dominio preso in analisi è estratto dagli atti giudiziari e descrive essenzialmente le relazioni tra “soggetti” e “fatti” provenienti dall’osservazione di ogni atto.

Come esempio, consideriamo un dominio giuridico in cui le informazioni tra persone (o Soggetto Fisico) ed eventi sono implicitamente riportate nei testi, come la trascrizione di un verbale di interrogatorio, in cui una persona dichiara alcune informazioni su certi fatti o soggetti di cui è a conoscenza, come ad esempio:

“Mi chiamo Marroni Antonella. In quei tempi ho conosciuto un maestro di ballo a Roma, Pino Arancioni, ora deceduto, con il quale vendevo hashish in piazza in Aprilia vendendolo ai ragazzi della mia età.”

Dall’esempio di cui sopra, è possibile identificare alcune relazioni specifiche tra entità che sono solo implicite nel testo. Ad esempio, è possibile rilevare la connessione tra la vendita di droga, l’hashish, e due individui, Marroni Antonella e Arancioni Pino. Inoltre, entrambi gli attori hanno frequentato una piazza in un luogo specifico, nella città di Aprilia.

Al fine di estrarre questa conoscenza implicita, è necessario un motore di estrazione di relazioni in grado di:

Rilevare le Named Entities (NEs) che si riferiscono a qualche tipo specifico di entità, come persone, luoghi o oggetti rilevanti nel dominio di destinazione (qui la droga), come “Marroni Antonella”, “Pino ARANCIONI”, “Roma”, “Aprilia”, “hashish”.
Estrarre le relazioni tra tali entità utili nel dominio di destinazione, come la relazione “Vendere” che sussiste tra le entità “Pino ARANCIONI” e “hashish”, o la associazione tra Marroni Antonella e Arancioni Pino che si “Conoscono”.

La disponibilità di questi metadati semantici permette di fornire una struttura al contenuto dei documenti, per recuperarli attraverso meccanismi molto più espressivi. Per esempio, l’identificazione all’interno di una raccolta di documenti di tutte le menzioni di un individuo (un Soggetto Fisico) e di tutti gli altri individui che hanno avuto relazioni con lui/lei (del tipo “Si Conoscono”) e che sono a loro volta in relazione (del tipo “Frequentano un luogo”) con Entità del tipo Luogo, permettono di esprimere query complesse, come l’esempio

“Trova tutti i documenti che contengono informazioni su un individuo, le persone che hanno interagito con lui/lei nell’ultimo mese e i luoghi che hanno frequentato”.

Questo permette la definizione di potenti schemi di navigazione attraverso questa (probabilmente un’enorme quantità) conoscenza, come mostra il seguente grafo semantico, dove le entità sono dei nodi e le relazioni sono i collegamenti tra di loro. L’esempio riportato in precedenza può essere sintetizzato con il seguente grafo che fornisce tutte le informazioni richieste nell’indagine.

Reveal Estrattore delle relazioni (RelExt)

In questo progetto, tale conoscenza viene estratta e filtrata utilizzando il Reveal Relation Extractor (RelExt): esso elabora i testi di input al fine di identificare le entità di interesse per gli analisti, insieme alle relazioni esistenti tra loro.

Il sistema RelExt implica approcci di Machine Learning per l’elaborazione dei testi, basati su metodi neurali come Support Vector Machine e/o Deep Learning. Poiché questo tipo di entità e relazioni di interesse nel dominio di riferimento può cambiare nei diversi domini, un team di analisti ha identificato le citazioni di entità e relazioni di interesse all’interno dei documenti del cliente.

L’etichettatura di meno di un centinaio di testi permette di sviluppare un sistema capace di “leggere” una raccolta di diverse migliaia di documenti.

Questo materiale è stato poi utilizzato per ottenere automaticamente i modelli neurali, utili ad automatizzare l’elaborazione semantica dei documenti intercettati dal sistema, e per definire dei benchmark, utili per la misurazione quantitativa della qualità semantica dei processori. L’etichettatura di meno di un centinaio di testi permette di sviluppare un sistema che è in grado di “leggere” una raccolta composta da diverse migliaia di documenti. Di conseguenza, diverse centinaia di migliaia di menzioni a delle entità e relazioni sono state estratte automaticamente e utilizzate per popolare un database e un motore di ricerca semantico. Infine, questi ultimi possono essere consultati attraverso linguaggi di interrogazione standard, come SQL o SPARQL. Per questo motivo è possibile implementare in modo semplice un potente software di navigazione e analisi, come le schede grafiche, utili per navigare in questa enorme quantità di informazioni.

Re4act, il browser di Reveal per il tracciamento dei crimini

Questa Base di dati e il Motore di Ricerca Semantico possono essere infine consultati attraverso linguaggi d’interrogazione standard, come SQL o SPARQL. Questo permette la semplice introduzione di un potente strumento di navigazione e di analisi.

La navigazione è disponibile attraverso i diagrammi grafici, utili per navigare in questa enorme quantità di informazioni. Nel seguente diagramma (a sinistra) una moltitudine di individui (che si conoscono l’un con l’altro) può essere vista a colpo d’occhio insieme al luogo che hanno frequentato o al gruppo criminale al quale appartengono. Inoltre, è possibile consultare i paragrafi specifici dove queste entità sono menzionate in coerenza con il grafico (al centro) o il documento specifico che può essere letto dall’analista (a destra) dove tutte le entità scoperte sono esplicite (a destra in basso).