Desenvolvimento de ferramentas computacionais para o processamento de dados dialetais e lexicográficos

IF 0.8 N/A LANGUAGE & LINGUISTICS
Jorge Luiz Nunes dos Santos Junior
{"title":"Desenvolvimento de ferramentas computacionais para o processamento de dados dialetais e lexicográficos","authors":"Jorge Luiz Nunes dos Santos Junior","doi":"10.1590/1983-3652.2023.42302","DOIUrl":null,"url":null,"abstract":"Resumo Este trabalho situa-se na intersecção da Linguística de Corpus (O’KEEFFE; MCCARTHY, 2010); Linguística Computacional (KEDIA; RASU, 2020; SRINIVASA-DESIKAN, 2018; MANNING, 2008; MANNING; SCHUTZE, 1999; CHOMSKY, 1965); Dialetologia (CARDOSO, 2010; RADTKE; THUN, 1996; CHAMBERS; TRUDGILL, 1994) e Lexicografia (TARP, 2008, 2011, 2015; FUERTES-OLIVEIRA; BERGENHOLTZ, 2015; LEROYER, 2011). Tem-se como objetivo apresentar o desenvolvimento de ferramentas computacionais capazes de processar dados de natureza dialetal e lexicográfica a partir de uma metodologia que dispensa a contratação de serviços de programação, convidando o pesquisador a estudar os recursos informáticos necessários para realizar a manipulação automática de informações em um banco de dados. Para tanto, o corpus utilizado foi o do Projeto Atlas Linguístico do Brasil (COMITÊ NACIONAL DO PROJETO ALIB, 2001), relativo aos municípios do interior, da rede de pontos do ALiB, na região Norte do país. A construção desses pequenos programas foi motivada, principalmente, por duas razões: i) fornecer tratamento lexicográfico e eletrônico aos dados dialetais do ALiB; ii) desenvolver as próprias ferramentas computacionais para atender aos objetivos da pesquisa de Doutorado em andamento à qual este artigo se vincula. Desse modo, um banco de dados em Extensible Markup Language (XML) foi construído para armazenar as informações dialetais em formato lexicográfico e, a partir da execução de linhas de código, foi possível recuperar dados específicos do corpus de maneira eletrônica, além de filtrar os resultados a partir das variantes ‘sexo’, ‘idade’ e ‘localidade’, presentes nos dados do corpus do ALiB.","PeriodicalId":52012,"journal":{"name":"Texto Livre-Linguagem e Tecnologia","volume":null,"pages":null},"PeriodicalIF":0.8000,"publicationDate":"2023-07-03","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Texto Livre-Linguagem e Tecnologia","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.1590/1983-3652.2023.42302","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"N/A","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
引用次数: 0

Abstract

Resumo Este trabalho situa-se na intersecção da Linguística de Corpus (O’KEEFFE; MCCARTHY, 2010); Linguística Computacional (KEDIA; RASU, 2020; SRINIVASA-DESIKAN, 2018; MANNING, 2008; MANNING; SCHUTZE, 1999; CHOMSKY, 1965); Dialetologia (CARDOSO, 2010; RADTKE; THUN, 1996; CHAMBERS; TRUDGILL, 1994) e Lexicografia (TARP, 2008, 2011, 2015; FUERTES-OLIVEIRA; BERGENHOLTZ, 2015; LEROYER, 2011). Tem-se como objetivo apresentar o desenvolvimento de ferramentas computacionais capazes de processar dados de natureza dialetal e lexicográfica a partir de uma metodologia que dispensa a contratação de serviços de programação, convidando o pesquisador a estudar os recursos informáticos necessários para realizar a manipulação automática de informações em um banco de dados. Para tanto, o corpus utilizado foi o do Projeto Atlas Linguístico do Brasil (COMITÊ NACIONAL DO PROJETO ALIB, 2001), relativo aos municípios do interior, da rede de pontos do ALiB, na região Norte do país. A construção desses pequenos programas foi motivada, principalmente, por duas razões: i) fornecer tratamento lexicográfico e eletrônico aos dados dialetais do ALiB; ii) desenvolver as próprias ferramentas computacionais para atender aos objetivos da pesquisa de Doutorado em andamento à qual este artigo se vincula. Desse modo, um banco de dados em Extensible Markup Language (XML) foi construído para armazenar as informações dialetais em formato lexicográfico e, a partir da execução de linhas de código, foi possível recuperar dados específicos do corpus de maneira eletrônica, além de filtrar os resultados a partir das variantes ‘sexo’, ‘idade’ e ‘localidade’, presentes nos dados do corpus do ALiB.
方言和词典数据处理计算工具的开发
这项工作位于语料库语言学的交叉点(O ' KEEFFE;麦卡锡,2010);计算语言学(KEDIA);链,2020;SRINIVASA -DESIKAN, 2018;此外,2008;人员配备;SCHUTZE, 1999;CHOMSKY (1965);dialetology (CARDOSO, 2010;RADTKE;图恩湖,1996;室;TRUDGILL, 1994)和词典编纂(TARP, 2008, 2011, 2015;FUERTES橄榄;BERGENHOLTZ, 2015;LEROYER, 2011)。已经把他计算工具的发展是不能够处理数据的方言词典从一个编程方法提供招聘服务,邀请研究人员学习所需的计算资源是实现信息的自动处理的数据库。为此,使用的语料库是巴西语言地图集项目(ALIB项目国家委员会,2001),该项目涉及该国北部地区ALIB点网络的内陆城市。这些小程序的构建主要有两个原因:1)为ALiB方言数据提供词典和电子处理;2)为ALiB方言数据提供词典和电子处理ii)开发自己的计算工具,以满足本文所链接的博士研究的目标。,数据库可扩展标记语言(XML)是用来存储信息的形状除了有方言,从实现的代码,就是电子的语料库检索特定数据的方式,除了过滤结果的变异‘性’,‘年龄’和‘城市’,礼物ALiB语料库的数据。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
Texto Livre-Linguagem e Tecnologia
Texto Livre-Linguagem e Tecnologia LANGUAGE & LINGUISTICS-
CiteScore
1.10
自引率
16.70%
发文量
32
审稿时长
5 weeks
期刊介绍: Texto Livre: Linguagem e Tecnologia is a quarterly journal, sponsored by the School of Letters of the Federal University of Minas Gerais (Brazil) since 2008. It welcomes submissions of articles, reviews, essays and translations on the relationship between languages and digital media. Its mission is to promote scientific production in the field of language studies, especially analysis of writing and practices for teaching writing through free and open new technologies, and studies on documentation and dissemination of free and open software, providing researchers from Brazil and abroad with the opportunity to share their research and contribute to the debate and scientific progress in the area. Topics of interest to this journal include: intertextuality, usability, computer use in the classroom, free culture, digital inclusion, digital literacy, dissemination of free software and other topics related to language and technology. The journal accepts manuscripts in Portuguese, Spanish, English and French, with no need for a translation into Portuguese. Texto Livre is intended for researchers and for a non-academic audience interested in critical approaches to the related topics addressed by the journal.
文献相关原料
公司名称 产品信息 采购帮参考价格
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信