Linguamatica最新文献_第4页

Formalización de reglas para la detección del plural en castellano en el caso de unidades no diccionarizadas 在非重定向单位的情况下，用西班牙语检测复数的规则的形式化

IF 0.6

Linguamatica Pub Date : 2020-01-04 DOI: 10.21814/lm.11.2.285

Rogelio Nazar, Amparo Galdames

引用次数: 1

Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica avaliação de métodos de similaridade semântica 基于语义相似度方法的叙事复述测试信息单元自动识别语义相似度方法评价

IF 0.6

Linguamatica Pub Date : 2020-01-04 DOI: 10.21814/lm.11.2.304

L. Santos, Sandra M. Aluísio

{"title":"Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica avaliação de métodos de similaridade semântica","authors":"L. Santos, Sandra M. Aluísio","doi":"10.21814/lm.11.2.304","DOIUrl":"https://doi.org/10.21814/lm.11.2.304","url":null,"abstract":"Diagnoses of Alzheimer's Disease (AD) and Mild Cognitive Impairment (CCL) are based on the analysis of the patient's cognitive functions by administering cognitive and neuropsychological assessment batteries. The use of retelling narratives is common to help identify and quantify the degree of dementia. In general, one point is awarded for each unit recalled, and the final score represents the number of units recalled. In this paper, we evaluated two clinical tasks: the automatic identification of which elements of a retold narrative were recalled; and the binary classification of the narrative produced by a patient, having the units identified as attributes, aiming at an automatic screening of patients with cognitive impairment. We used two transcribed retelling data sets in which sentences were divided and manually annotated with the information units. These data sets were then made publicly available. They are: the Arizona Battery for Communication and Dementia Disorders (ABCD) that contains narratives of patients with CCL and Healthy Controls and the Avaliacao da Linguagem no Envelhecimento (BALE), which includes narratives of patients with AD and CCLs as well as Healthy Controls. We evaluated two methods based on semantic similarity, referred to here as STS and Chunking, and transformed the multi-label problem of identifying elements of a retold narrative into binary classification problems, finding a cutoff point for the similarity value of each information unit. In this way, we were able to overcome two baselines for the two datasets in the SubsetAccuracy metric, which is the most punitive for the multi-label scenario. In binary classification, however, not all six machine learning methods evaluated performed better than the baselines methods. For ABCD, the best methods were Decision Trees and KNN, and for BALE, SVM with RBF kernel stood out.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"47-63"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49441155","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 1

Estrategia multidimensional para la selección de candidatos de traducción automática para posedición 为posed选择机器翻译候选人的多维策略

IF 0.6

Linguamatica Pub Date : 2020-01-04 DOI: 10.21814/lm.11.2.277

Nora Aranberri

{"title":"Estrategia multidimensional para la selección de candidatos de traducción automática para posedición","authors":"Nora Aranberri","doi":"10.21814/lm.11.2.277","DOIUrl":"https://doi.org/10.21814/lm.11.2.277","url":null,"abstract":"espanolUna integracion eficiente de un sistema de traduccion automatica (TA) en un flujo de traduccion conlleva la necesidad de distinguir entre oraciones que se benefician de la TA y las que no antes de que pasen a manos del traductor. En este trabajo, cuestionamos el uso por separado de las dimensiones de esfuerzo de posedicion de Krings (2001) para clasificar oraciones en aptas para traducir o poseditar al entrenar modelos de prediccion y abogamos por una estrategia multidimensional. A partir de una tarea de posedicion en un escenario real, se recogen mediciones de los tres parametros de esfuerzo, a saber, tiempo, tasa de palabras poseditadas, y percepcion del esfuerzo, como representativos de las tres dimensiones (temporal, tecnica y cognitiva). Los resultados muestran que, a pesar de que existen correlaciones entre las mediciones, los parametros difieren en la clasificacion de un numero elevado de oraciones. Concluimos que la estrategia multidimensional es necesaria para estimar el esfuerzo real de posedicion. EnglishAn efficient integration of a machine translation (MT) system within a translation flow entails the need to distinguish between sentences that benefit from MT and those that do not before they are presented to the translator. In this work we question the use of Krings' (2001) post-editing effort dimensions separately to classify sentences into suitable for translation or for post-editing when training predictions models and propose a multidimensional strategy instead. We collect measurements of three effort parameters, namely, time, number of post-edited words and perception of effort, as representative of the three dimensions (temporal, technical and cognitive) in a real post-editing task. The results show that, although there are correlations between the measurements, the effort parameters differ in the classification of a considerable number of sentences. We conclude that the multidimensional strategy is necessary to estimate the overall post-editing effort.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"3-16"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45688131","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 3

O uso da análise de clusters na identificação de padrões de transitividade linguística 聚类分析在语言及物性模式识别中的应用

IF 0.6

Linguamatica Pub Date : 2020-01-04 DOI: 10.21814/lm.11.2.292

Marcus Lepesqueur, I. A. Reis

引用次数: 0

Aplicación de WordNet e de word embeddings no desenvolvemento de prototipos para a xeración automática da lingua WordNet和单词嵌入在语言自动生成原型开发中的应用

IF 0.6

Linguamatica Pub Date : 2020-01-01 DOI: 10.21814/lm.12.2.337

María José Domínguez Vázquez

引用次数: 2

Avaliando entidades mencionadas na coleção ELTeC-por 评估ELTeC-por集合中提到的实体

IF 0.6

Linguamatica Pub Date : 2020-01-01 DOI: 10.21814/lm.12.2.336

Diana Santos, Eckhard Bick, Marcin Wlodek

{"title":"Avaliando entidades mencionadas na coleção ELTeC-por","authors":"Diana Santos, Eckhard Bick, Marcin Wlodek","doi":"10.21814/lm.12.2.336","DOIUrl":"https://doi.org/10.21814/lm.12.2.336","url":null,"abstract":"Este artigo relata a preparação da anotação da coleção ELTeC-por com entidades mencionadas apropriadas ao género textual \"romances e novelas publicadas entre 1840 e 1920\", para possibilitar a leitura distante em português. Em primeiro lugar apresentamos a coleção ELTeC-por, compilada no âmbito da ação COST \"Distant Reading for European Literary History\" para estudar a literatura europeia, e explicamos as diversas restrições e escolhas necessárias, fornecendo uma caracterização inicial segundo vários eixos: a origem e tamanho das obras, o seu (sub)género literário, o género do autor, o local de publicação e a existência ou não de mais edições. Em seguida apresentamos o sistema PALAVRAS-NER, com o qual anotaremos a coleção, explicando detalhadamente o seu funcionamento. Passamos então à descrição da criação de uma subcoleção de oito obras revistas, que servem, por um lado, para avaliar o desempenho do sistema de REM automático, e, por outro, para caracterizar o tipo de população esperada. As obras podem classificar-se segundo dois eixos diferentes: romances históricos vs. romances contemporâneos; e obras com grafia original ou grafia modernizada. Além disso, algumas obras são obviamente canónicas, outras não. Além da descrição quantitativa do resultado de anotação e revisão, apresentamos algumas considerações qualitativas sobre o processo. Também fornecemos uma análise detalhada de algumas categorias, tentando mostrar como os lugares, profissões e gentílicos mais mencionados podem ser indicadores numa leitura distante. Concluímos comparando com o trabalho internacional feito na análise de entidades mencionadas de obras literárias, explicando as diferenças e sugerindo trabalho futuro.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"29-49"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367478","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 3

Adaptação Lexical Automática em Textos Informativos do Português Brasileiro para o Ensino Fundamental 巴西葡萄牙语小学信息文本的自动词汇适应

IF 0.6

Linguamatica Pub Date : 2020-01-01 DOI: 10.21814/lm.12.2.323

Nathan Siegle Hartmann, Sandra M. Aluísio

{"title":"Adaptação Lexical Automática em Textos Informativos do Português Brasileiro para o Ensino Fundamental","authors":"Nathan Siegle Hartmann, Sandra M. Aluísio","doi":"10.21814/lm.12.2.323","DOIUrl":"https://doi.org/10.21814/lm.12.2.323","url":null,"abstract":"A Adaptação Textual é uma grande área de pesquisa do Processamento de Línguas Naturais (PLN), bastante conhecida como prática educacional, e possui duas grandes abordagens: a Simplificação e a Elaboração Textual. Não há muitos trabalhos na literatura de PLN que tratam todas as fases da Adaptação Lexical para implementação de sistemas. Vários trabalhos tratam independentemente as tarefas de Simplificação e Elaboração Lexicais, trazendo contribuições parciais, já que cada uma das tarefas possuem seus próprios desafios. Este trabalho propôs um pipeline para a Adaptação Lexical e apresenta contribuições para três das quatro etapas do pipeline, sendo elas: (i) proposta e avaliação de métodos para a tarefa de Identificação de Palavras Complexas; (ii) análise de córpus para levantamento de padrões de Elaboração Lexical do tipo definição; (iii) disponibilização do córpus SIMPLEX-PB 3.0, contendo em sua nova versão definições curtas extraídas de dicionário que foram revisadas manualmente, anotações de termos técnicos extraídas de dicionário, e métricas linguísticas de complexidade lexical; e (iv) proposta e avaliação de métodos para Simplificação Lexical, estabelecendo um novo SOTA para a tarefa aplicada no Português Brasileiro.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"3-27"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367174","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 7

Avaliação de recursos computacionais para o português 葡萄牙语计算资源评估

IF 0.6

Linguamatica Pub Date : 2020-01-01 DOI: 10.21814/lm.12.2.331

Matilde Gonçalves, Luísa Coheur, J. Baptista, A. Mineiro

引用次数: 1

Extracción y análisis de las causas de suicidio a través de marcadores lingüísticos en reportes periodísticos 通过新闻报道中的语言标记提取和分析自杀原因

IF 0.6

Linguamatica Pub Date : 2020-01-01 DOI: 10.21814/lm.11.2.276

J. A. Reyes-Ortíz, M. Tovar

{"title":"Extracción y análisis de las causas de suicidio a través de marcadores lingüísticos en reportes periodísticos","authors":"J. A. Reyes-Ortíz, M. Tovar","doi":"10.21814/lm.11.2.276","DOIUrl":"https://doi.org/10.21814/lm.11.2.276","url":null,"abstract":"espanolEl analisis automatico de informacion(textos) sobre el suicidio se ha convertido en un reto para el campo de investigacion en linguistica computacional, cada vez mas, son necesarias herramientas que ayuden a disminuir las tasas de suicidios, por ejemplo, extraer las causas para apoyar en su deteccion temprana. Los aspectos linguisticos en los textos en Espanol, tales como frases clave o partes de la oracion, pueden ayudar en dicha tarea. Por ello, en este articulo se presenta un enfoque computacional para la extraccion y analisis de causas a partir de cabeceras de reportes periodisticos sobre el suicidio en espanol. La tarea de extraccion automatica de causas de suicidio es llevada a cabo mediante marcadores linguisticos basados en verbos, conectores, preposiciones y conjunciones. Por su parte, el analisis de las causas de suicidio es realizado en dos enfoques: a) un analisis centrado en frases verbales y nominales, estudiando la presencia de la negacion; b) un analisis centrado en la frecuencia de los unigramas y bigramas de palabras. Ambos analisis muestran resultados prometedores, los cuales son utiles para conocer los motivos de los suicidios reportados en Mexico en un periodo determinado. Finalmente, se obtiene una coleccion de 581 causas del suicidio. EnglishThe automatic analysis of suicide data(texts) has become a challenge for the computational linguistics research field, increasingly, tools are needed to help reduce suicide rates, for example, by extracting the suicide causes in order to support their early detection. Linguistic aspects in Spanish texts, such as cue phrases or parts of speech, can help in this task. Therefore, this paper presents a computational approach to the extraction and analysis of suicide causes from news reports in Spanish. The automatic extraction of suicide causes is carried out through linguistic markers based on verbs, connectors, prepositions and conjunctions. On the other hand, the analysis of the suicides causes is performed in two approaches: a) an analysis focused on verbal and noun phrases, studying the presence of the negation; b) an analysis on the frequency about unigrams or bigrams of words. Both analyzes show promising and correlated results, which are useful for recognizing the suicide causes reported in Mexico in a given period. Finally, a corpus is obtained with a collection of 581 suicide causes.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"67-77"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367560","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

SAUTEE: un recurso en línea para análisis estilométricos SAUTEE:风格分析的在线资源

IF 0.6

Linguamatica Pub Date : 2019-07-20 DOI: 10.21814/lm.11.1.270

Fernanda López-Escobedo, Gerardo E Sierra, Julián Solórzano-Soto

引用次数: 1