{"title":"Desenvolvimento de ferramentas computacionais para o processamento de dados dialetais e lexicográficos","authors":"Jorge Luiz Nunes dos Santos Junior","doi":"10.1590/1983-3652.2023.42302","DOIUrl":null,"url":null,"abstract":"Resumo Este trabalho situa-se na intersecção da Linguística de Corpus (O’KEEFFE; MCCARTHY, 2010); Linguística Computacional (KEDIA; RASU, 2020; SRINIVASA-DESIKAN, 2018; MANNING, 2008; MANNING; SCHUTZE, 1999; CHOMSKY, 1965); Dialetologia (CARDOSO, 2010; RADTKE; THUN, 1996; CHAMBERS; TRUDGILL, 1994) e Lexicografia (TARP, 2008, 2011, 2015; FUERTES-OLIVEIRA; BERGENHOLTZ, 2015; LEROYER, 2011). Tem-se como objetivo apresentar o desenvolvimento de ferramentas computacionais capazes de processar dados de natureza dialetal e lexicográfica a partir de uma metodologia que dispensa a contratação de serviços de programação, convidando o pesquisador a estudar os recursos informáticos necessários para realizar a manipulação automática de informações em um banco de dados. Para tanto, o corpus utilizado foi o do Projeto Atlas Linguístico do Brasil (COMITÊ NACIONAL DO PROJETO ALIB, 2001), relativo aos municípios do interior, da rede de pontos do ALiB, na região Norte do país. A construção desses pequenos programas foi motivada, principalmente, por duas razões: i) fornecer tratamento lexicográfico e eletrônico aos dados dialetais do ALiB; ii) desenvolver as próprias ferramentas computacionais para atender aos objetivos da pesquisa de Doutorado em andamento à qual este artigo se vincula. Desse modo, um banco de dados em Extensible Markup Language (XML) foi construído para armazenar as informações dialetais em formato lexicográfico e, a partir da execução de linhas de código, foi possível recuperar dados específicos do corpus de maneira eletrônica, além de filtrar os resultados a partir das variantes ‘sexo’, ‘idade’ e ‘localidade’, presentes nos dados do corpus do ALiB.","PeriodicalId":52012,"journal":{"name":"Texto Livre-Linguagem e Tecnologia","volume":"12 1","pages":""},"PeriodicalIF":0.8000,"publicationDate":"2023-07-03","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Texto Livre-Linguagem e Tecnologia","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.1590/1983-3652.2023.42302","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
引用次数: 0
Abstract
Resumo Este trabalho situa-se na intersecção da Linguística de Corpus (O’KEEFFE; MCCARTHY, 2010); Linguística Computacional (KEDIA; RASU, 2020; SRINIVASA-DESIKAN, 2018; MANNING, 2008; MANNING; SCHUTZE, 1999; CHOMSKY, 1965); Dialetologia (CARDOSO, 2010; RADTKE; THUN, 1996; CHAMBERS; TRUDGILL, 1994) e Lexicografia (TARP, 2008, 2011, 2015; FUERTES-OLIVEIRA; BERGENHOLTZ, 2015; LEROYER, 2011). Tem-se como objetivo apresentar o desenvolvimento de ferramentas computacionais capazes de processar dados de natureza dialetal e lexicográfica a partir de uma metodologia que dispensa a contratação de serviços de programação, convidando o pesquisador a estudar os recursos informáticos necessários para realizar a manipulação automática de informações em um banco de dados. Para tanto, o corpus utilizado foi o do Projeto Atlas Linguístico do Brasil (COMITÊ NACIONAL DO PROJETO ALIB, 2001), relativo aos municípios do interior, da rede de pontos do ALiB, na região Norte do país. A construção desses pequenos programas foi motivada, principalmente, por duas razões: i) fornecer tratamento lexicográfico e eletrônico aos dados dialetais do ALiB; ii) desenvolver as próprias ferramentas computacionais para atender aos objetivos da pesquisa de Doutorado em andamento à qual este artigo se vincula. Desse modo, um banco de dados em Extensible Markup Language (XML) foi construído para armazenar as informações dialetais em formato lexicográfico e, a partir da execução de linhas de código, foi possível recuperar dados específicos do corpus de maneira eletrônica, além de filtrar os resultados a partir das variantes ‘sexo’, ‘idade’ e ‘localidade’, presentes nos dados do corpus do ALiB.
期刊介绍:
Texto Livre: Linguagem e Tecnologia is a quarterly journal, sponsored by the School of Letters of the Federal University of Minas Gerais (Brazil) since 2008. It welcomes submissions of articles, reviews, essays and translations on the relationship between languages and digital media. Its mission is to promote scientific production in the field of language studies, especially analysis of writing and practices for teaching writing through free and open new technologies, and studies on documentation and dissemination of free and open software, providing researchers from Brazil and abroad with the opportunity to share their research and contribute to the debate and scientific progress in the area. Topics of interest to this journal include: intertextuality, usability, computer use in the classroom, free culture, digital inclusion, digital literacy, dissemination of free software and other topics related to language and technology. The journal accepts manuscripts in Portuguese, Spanish, English and French, with no need for a translation into Portuguese. Texto Livre is intended for researchers and for a non-academic audience interested in critical approaches to the related topics addressed by the journal.