Descrição linguística e aprendizado de máquina

IF 0.1 0 LANGUAGE & LINGUISTICS
Roana Rodrigues, Jackson Wilke da Cruz Souza, R. L. S. Santos
{"title":"Descrição linguística e aprendizado de máquina","authors":"Roana Rodrigues, Jackson Wilke da Cruz Souza, R. L. S. Santos","doi":"10.20396/cel.v64i00.8666995","DOIUrl":null,"url":null,"abstract":"Con el fin de esclarecer las relaciones que se establecen entre la lingüística descriptiva y el aprendizaje automático, este artículo presenta resultados de una investigación que analiza un algoritmo generado a partir de una propuesta de clasificación humana de construcciones verbales locativas de la lengua española. Se utilizaron datos sacados de Rodrigues (2019), que presentan un análisis y descripción de 318 construcciones verbales que seleccionan, de manera obligatoria, un argumento interpretado como lugar (poner, salir, entrar, enjaular etc.), organizadas en 10 clases distintas, de acuerdo con sus atributos estructurales, distribucionales y transformacionales. Partiendo del paradigma simbólico y utilizando el software Weka, los datos permitieron generar dos propuestas de reglas del algoritmo JRip: sin y con la selección de atributos. Ambos los procedimientos generaron 10 reglas compuestas y evaluaron las medidas de precisión, exhaustividad, puntuación-f1 y matriz de confusión de los algoritmos creados. El algoritmo sin selección de atributos presentó el 100% de desempeño, demostrando que los datos lingüísticos presentan una descripción y clasificación coherentes. Por su vez, el algoritmo con selección de atributos, con el 96,54% de desempeño, permitió, además de exponer las propiedades lingüísticas más relevantes con fines de clasificación, analizar los casos más sensibles para distinción entre las clases, culminando en la lista de seis aspectos descriptivos de revisión y/o refinamiento de datos que se deben analizar en investigaciones futuras. Por tanto, esta investigación auxilió, más específicamente, en la mejora de la descripción de las construcciones verbales locativas de la lengua española y demostró que la relación descripción humana y aprendizaje automático no consiste solamente en la importancia de la descripción como input para la máquina, pero, principalmente, sobre cómo es posible utilizar algoritmos (y sus métricas de evaluación) para validar y mejorar la descripción de diferentes fenómenos de las lenguas naturales.","PeriodicalId":41751,"journal":{"name":"Cadernos de Estudos Linguisticos","volume":" ","pages":""},"PeriodicalIF":0.1000,"publicationDate":"2022-10-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Cadernos de Estudos Linguisticos","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.20396/cel.v64i00.8666995","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
引用次数: 0

Abstract

Con el fin de esclarecer las relaciones que se establecen entre la lingüística descriptiva y el aprendizaje automático, este artículo presenta resultados de una investigación que analiza un algoritmo generado a partir de una propuesta de clasificación humana de construcciones verbales locativas de la lengua española. Se utilizaron datos sacados de Rodrigues (2019), que presentan un análisis y descripción de 318 construcciones verbales que seleccionan, de manera obligatoria, un argumento interpretado como lugar (poner, salir, entrar, enjaular etc.), organizadas en 10 clases distintas, de acuerdo con sus atributos estructurales, distribucionales y transformacionales. Partiendo del paradigma simbólico y utilizando el software Weka, los datos permitieron generar dos propuestas de reglas del algoritmo JRip: sin y con la selección de atributos. Ambos los procedimientos generaron 10 reglas compuestas y evaluaron las medidas de precisión, exhaustividad, puntuación-f1 y matriz de confusión de los algoritmos creados. El algoritmo sin selección de atributos presentó el 100% de desempeño, demostrando que los datos lingüísticos presentan una descripción y clasificación coherentes. Por su vez, el algoritmo con selección de atributos, con el 96,54% de desempeño, permitió, además de exponer las propiedades lingüísticas más relevantes con fines de clasificación, analizar los casos más sensibles para distinción entre las clases, culminando en la lista de seis aspectos descriptivos de revisión y/o refinamiento de datos que se deben analizar en investigaciones futuras. Por tanto, esta investigación auxilió, más específicamente, en la mejora de la descripción de las construcciones verbales locativas de la lengua española y demostró que la relación descripción humana y aprendizaje automático no consiste solamente en la importancia de la descripción como input para la máquina, pero, principalmente, sobre cómo es posible utilizar algoritmos (y sus métricas de evaluación) para validar y mejorar la descripción de diferentes fenómenos de las lenguas naturales.
语言描述和机器学习
为了澄清描述语言学与机器学习之间建立的关系,本文介绍了一项研究的结果,该研究分析了一种算法,该算法是根据人类对西班牙语位置动词结构分类的建议产生的。使用了来自罗德里格斯(2019年)的数据,该数据对318个动词结构进行了分析和描述,这些结构根据其结构、分布和转换属性,强制选择一个解释为位置(put、out、enter、enjaular等)的参数,分为10个不同的类别。从符号范式出发,使用WEKA软件,数据允许生成JRIP算法的两个规则提案:没有和有属性选择。这两个程序都产生了10个复合规则,并评估了所创建算法的精度、完整性、F1分数和混淆矩阵的测量。没有属性选择的算法表现出100%的性能,表明语言数据具有一致的描述和分类。反过来,具有属性选择的算法有96.54%的性能,除了为分类目的展示最相关的语言属性外,还可以分析最敏感的案例,以区分类别,最终列出了未来研究中需要分析的六个描述性审查和/或数据精整方面。因此,这项研究更具体地有助于改善对西班牙语处所动词结构的描述,并表明人类描述和机器学习的关系不仅在于描述作为机器输入的重要性,而且主要是,关于如何使用算法(及其评估指标)来验证和改进对自然语言不同现象的描述。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
Cadernos de Estudos Linguisticos
Cadernos de Estudos Linguisticos LANGUAGE & LINGUISTICS-
自引率
0.00%
发文量
32
审稿时长
8 weeks
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信