PetroGold – Corpus padrão ouro para o domínio do petróleo

Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021) Pub Date : 2021-11-29 DOI:10.5753/stil.2021.17781

Elvis De Souza, A. Silveira, T. Cavalcanti, Maria Clara Castro, Cláudia Freitas

引用次数: 8

Abstract

Este trabalho descreve a criação do PetroGold, um treebank padrão ouro para o domínio do óleo & gás. O material é composto por teses, dissertações e monografias, contém 9.127 frases (253.640 tokens) e conta com anotação morfossintática de dependências segundo a abordagem Universal Dependencies. Detalhamos alguns dos desafios linguísticos do domínio para a anotação sintática e verificamos a qualidade do material produzido por meio de uma avaliação intrínseca: utilizando um modelo criado pela ferramenta UDPipe, o corpus leva a 90,65%, 88,53% e 82,88% de acertos conforme as medidas UAS, LAS e CLAS, respectivamente.

查看原文本刊更多论文

PetroGold -石油领域的黄金标准语料库

本文描述了PetroGold的创建，PetroGold是石油和天然气领域的金本位树库。该材料由论文、学位论文和专著组成，包含9127个短语(253640个标记)，并根据通用依赖方法对依赖进行形态句法注释。域语言细节的一些挑战注释语法却材料制作的质量通过一个固有的评价:使用一个模型是由UDPipe工具,语料库中带着90,65%,88,53%,88%,82的校准是“无人飞行系统”的措施,和同学分别。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021)

自引率

0.00%

发文量