{"title":"Reconocimiento y clasificación de entidades nombradas en textos legalesen español","authors":"Doa Samy","doi":"10.26342/2021-67-9","DOIUrl":null,"url":null,"abstract":"El reconocimiento y la clasificacion de las entidades nombradas (NER/NERC) es una tarea principal en las areas del Procesamiento del Lenguaje Natural (PLN) y la Extraccion de la Informacion. El papel de NERC en el dominio legal es imprescindible en el desarrollo de sistemas legales inteligentes. El presente trabajo pretende dar un primer paso hacia establecer un \"baseline\" para la tarea NERC en el espanol juridico. El objetivo principal consiste en proporcionar un recurso linguistico anotando cinco tipos basicos de entidades nombradas en los textos legislativos en espanol peninsular. Los cinco tipos de entidades nombradas son: Personas, Organizaciones, Lugares, Fechas absolutas y Referencias a leyes, decretos, ordenes, normativas y articulos. Se adopta una metodologia hibrida que reune tres tecnicas principales: Patrones de expresiones regulares, listas de fuentes externas y el entrenamiento de tres modelos NERC utilizando la libreria abierta spaCy v3. De los tres modelos entrenados, el mejor ha obtenido un f-score de 0.93 alcanzando en algunos tipos como las menciones a leyes o fechas valores de 0.98 y 0.97 respectivamente. El peor de los modelos ha alcanzado una media de f-score de 0.85 que sigue siendo un resultado satisfactorio comparado con el estado de la cuestion.","PeriodicalId":258781,"journal":{"name":"Proces. del Leng. Natural","volume":"17 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-09-06","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Proces. del Leng. Natural","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.26342/2021-67-9","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 2
Abstract
El reconocimiento y la clasificacion de las entidades nombradas (NER/NERC) es una tarea principal en las areas del Procesamiento del Lenguaje Natural (PLN) y la Extraccion de la Informacion. El papel de NERC en el dominio legal es imprescindible en el desarrollo de sistemas legales inteligentes. El presente trabajo pretende dar un primer paso hacia establecer un "baseline" para la tarea NERC en el espanol juridico. El objetivo principal consiste en proporcionar un recurso linguistico anotando cinco tipos basicos de entidades nombradas en los textos legislativos en espanol peninsular. Los cinco tipos de entidades nombradas son: Personas, Organizaciones, Lugares, Fechas absolutas y Referencias a leyes, decretos, ordenes, normativas y articulos. Se adopta una metodologia hibrida que reune tres tecnicas principales: Patrones de expresiones regulares, listas de fuentes externas y el entrenamiento de tres modelos NERC utilizando la libreria abierta spaCy v3. De los tres modelos entrenados, el mejor ha obtenido un f-score de 0.93 alcanzando en algunos tipos como las menciones a leyes o fechas valores de 0.98 y 0.97 respectivamente. El peor de los modelos ha alcanzado una media de f-score de 0.85 que sigue siendo un resultado satisfactorio comparado con el estado de la cuestion.