Relation Extraction: Syntax Generalization and Machine Learning


CatturaGuido Boella – Luigi Di Caro - CDCT Working Paper 19-2013/ELC10

Sommario: In questo articolo presentiamo una tecnica per estrarre definizioni e relazioni dal testo. Questo task ha un elevato impatto su tutte le attività relative alla gestione di documenti legali, dove qualsiasi supporto automatico può rappresentare un aiuto essenziale. Invece di utilizzare metodi basati su pattern-matching che usano regole lessico-sintattiche di corrispondenza, proponiamo una tecnica che utilizza solo le dipendenze sintattiche tra i termini, estratte con un parser sintattico. Il presupposto è che l’informazione sintattica è più robusta delle regole relativamente alla lunghezza e la complessità delle frasi. Successivamente, trasformiamo questi contesti sintattici in rappresentazioni generalizzate, che vengono poi date in input ad un classificatore Support Vector Machine standard. I risultati su un set di dati con annotazioni di frasi e definizioni dimostrano la validità della tecnica surclassando l’attuale stato dell’arte

CDCT WORKING PAPER 19-2013/ELC10
Working Papers, Working Papers -2013