Hyan H. N. Batista, André C. A. Nascimento, Rafael Ferreira Melo, Pericles Miranda, Isabel W. S. Maldonado, José L. M. Coelho Filho
{"title":"葡萄牙法律文件中命名实体提取的文本嵌入方法比较分析","authors":"Hyan H. N. Batista, André C. A. Nascimento, Rafael Ferreira Melo, Pericles Miranda, Isabel W. S. Maldonado, José L. M. Coelho Filho","doi":"10.5753/eniac.2021.18255","DOIUrl":null,"url":null,"abstract":"A petição inicial é um dos componentes mais importantes de um processo civil, de modo que a automatização da análise desses documentos pode diminuir o tempo necessário para que se cumpra a fase postulatória. O corpo de qualificação das partes, por sua vez, é a seção nesse documento onde são expostas as informações a respeito das entidades envolvidas no processo. Este artigo propõe o uso de técnicas de extração de entidades nomeadas no problema de identificação e extração de informações em petições iniciais. Para tal, foi produzida uma base de dados composta por corpos de qualificação das partes de petições iniciais extraídas de processos advindos de tribunais brasileiros. Foram treinados, avaliados e comparados sete modelos BiLSTM-CRF com combinações distintas de representações vetoriais de palavras, a fim de se investigar seus efeitos na performance de um algoritmo com essa arquitetura e, dessa forma, aprimorar o reconhecimento de entidades jurídicas em textos legais. Ao contrário de outros trabalhos baseados em BiLSTM-CRF para tarefas de NER no domínio jurídico, esta pesquisa dá ênfase não às arquiteturas empregadas, mas sim aos métodos de representação de texto usados. Os experimentos executados com o corpus desenvolvido mostram que o empilhamento de incorporações de caracteres, palavras e pooled FLAIR embeddings é a combinação preferível para extrair-se o melhor desempenho possível de modelos híbridos BiLSTM-CRF.","PeriodicalId":318676,"journal":{"name":"Anais do XVIII Encontro Nacional de Inteligência Artificial e Computacional (ENIAC 2021)","volume":"83 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-11-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"A comparative analysis of text embedding approach to extract named entities in Portuguese legal documents\",\"authors\":\"Hyan H. N. Batista, André C. A. Nascimento, Rafael Ferreira Melo, Pericles Miranda, Isabel W. S. Maldonado, José L. M. Coelho Filho\",\"doi\":\"10.5753/eniac.2021.18255\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"A petição inicial é um dos componentes mais importantes de um processo civil, de modo que a automatização da análise desses documentos pode diminuir o tempo necessário para que se cumpra a fase postulatória. O corpo de qualificação das partes, por sua vez, é a seção nesse documento onde são expostas as informações a respeito das entidades envolvidas no processo. Este artigo propõe o uso de técnicas de extração de entidades nomeadas no problema de identificação e extração de informações em petições iniciais. Para tal, foi produzida uma base de dados composta por corpos de qualificação das partes de petições iniciais extraídas de processos advindos de tribunais brasileiros. Foram treinados, avaliados e comparados sete modelos BiLSTM-CRF com combinações distintas de representações vetoriais de palavras, a fim de se investigar seus efeitos na performance de um algoritmo com essa arquitetura e, dessa forma, aprimorar o reconhecimento de entidades jurídicas em textos legais. Ao contrário de outros trabalhos baseados em BiLSTM-CRF para tarefas de NER no domínio jurídico, esta pesquisa dá ênfase não às arquiteturas empregadas, mas sim aos métodos de representação de texto usados. Os experimentos executados com o corpus desenvolvido mostram que o empilhamento de incorporações de caracteres, palavras e pooled FLAIR embeddings é a combinação preferível para extrair-se o melhor desempenho possível de modelos híbridos BiLSTM-CRF.\",\"PeriodicalId\":318676,\"journal\":{\"name\":\"Anais do XVIII Encontro Nacional de Inteligência Artificial e Computacional (ENIAC 2021)\",\"volume\":\"83 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2021-11-29\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Anais do XVIII Encontro Nacional de Inteligência Artificial e Computacional (ENIAC 2021)\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.5753/eniac.2021.18255\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Anais do XVIII Encontro Nacional de Inteligência Artificial e Computacional (ENIAC 2021)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5753/eniac.2021.18255","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
A comparative analysis of text embedding approach to extract named entities in Portuguese legal documents
A petição inicial é um dos componentes mais importantes de um processo civil, de modo que a automatização da análise desses documentos pode diminuir o tempo necessário para que se cumpra a fase postulatória. O corpo de qualificação das partes, por sua vez, é a seção nesse documento onde são expostas as informações a respeito das entidades envolvidas no processo. Este artigo propõe o uso de técnicas de extração de entidades nomeadas no problema de identificação e extração de informações em petições iniciais. Para tal, foi produzida uma base de dados composta por corpos de qualificação das partes de petições iniciais extraídas de processos advindos de tribunais brasileiros. Foram treinados, avaliados e comparados sete modelos BiLSTM-CRF com combinações distintas de representações vetoriais de palavras, a fim de se investigar seus efeitos na performance de um algoritmo com essa arquitetura e, dessa forma, aprimorar o reconhecimento de entidades jurídicas em textos legais. Ao contrário de outros trabalhos baseados em BiLSTM-CRF para tarefas de NER no domínio jurídico, esta pesquisa dá ênfase não às arquiteturas empregadas, mas sim aos métodos de representação de texto usados. Os experimentos executados com o corpus desenvolvido mostram que o empilhamento de incorporações de caracteres, palavras e pooled FLAIR embeddings é a combinação preferível para extrair-se o melhor desempenho possível de modelos híbridos BiLSTM-CRF.