LinguamaticaPub Date : 2020-01-04DOI: 10.21814/lm.11.2.285
Rogelio Nazar, Amparo Galdames
{"title":"Formalización de reglas para la detección del plural en castellano en el caso de unidades no diccionarizadas","authors":"Rogelio Nazar, Amparo Galdames","doi":"10.21814/lm.11.2.285","DOIUrl":"https://doi.org/10.21814/lm.11.2.285","url":null,"abstract":"En este artículo ofrecemos una formalización de reglas de pluralización en castellano para ser utilizada concretamente en el procesamiento de términos especializados, ya que con frecuencia estos no se encuentran registrados en los diccionarios de lengua general y, por tanto, no son reconocidos su categoría y lema. Esto tiene consecuencias negativas en tareas como la extracción de terminología, especialmente en el caso de lenguas con riqueza morfológica. Enfrentamos el problema con un diseño en forma de cascada de reglas de sustitución, expresiones regulares y adquisición léxica a partir de corpus de grandes dimensiones. Los resultados experimentales muestran una reducción significativa de la tasa de error de dos etiquetadores ampliamente utilizados: TreeTagger y UDPipe. Ofrecemos una implementación en código abierto que funciona como posproceso del etiquetado.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"17-32"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47339780","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2020-01-04DOI: 10.21814/lm.11.2.304
L. Santos, Sandra M. Aluísio
{"title":"Identificação automática de unidades de informação em testes de reconto de narrativas usando métodos de similaridade semântica avaliação de métodos de similaridade semântica","authors":"L. Santos, Sandra M. Aluísio","doi":"10.21814/lm.11.2.304","DOIUrl":"https://doi.org/10.21814/lm.11.2.304","url":null,"abstract":"Diagnoses of Alzheimer's Disease (AD) and Mild Cognitive Impairment (CCL) are based on the analysis of the patient's cognitive functions by administering cognitive and neuropsychological assessment batteries. The use of retelling narratives is common to help identify and quantify the degree of dementia. In general, one point is awarded for each unit recalled, and the final score represents the number of units recalled. In this paper, we evaluated two clinical tasks: the automatic identification of which elements of a retold narrative were recalled; and the binary classification of the narrative produced by a patient, having the units identified as attributes, aiming at an automatic screening of patients with cognitive impairment. We used two transcribed retelling data sets in which sentences were divided and manually annotated with the information units. These data sets were then made publicly available. They are: the Arizona Battery for Communication and Dementia Disorders (ABCD) that contains narratives of patients with CCL and Healthy Controls and the Avaliacao da Linguagem no Envelhecimento (BALE), which includes narratives of patients with AD and CCLs as well as Healthy Controls. We evaluated two methods based on semantic similarity, referred to here as STS and Chunking, and transformed the multi-label problem of identifying elements of a retold narrative into binary classification problems, finding a cutoff point for the similarity value of each information unit. In this way, we were able to overcome two baselines for the two datasets in the SubsetAccuracy metric, which is the most punitive for the multi-label scenario. In binary classification, however, not all six machine learning methods evaluated performed better than the baselines methods. For ABCD, the best methods were Decision Trees and KNN, and for BALE, SVM with RBF kernel stood out.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"47-63"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49441155","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2020-01-04DOI: 10.21814/lm.11.2.277
Nora Aranberri
{"title":"Estrategia multidimensional para la selección de candidatos de traducción automática para posedición","authors":"Nora Aranberri","doi":"10.21814/lm.11.2.277","DOIUrl":"https://doi.org/10.21814/lm.11.2.277","url":null,"abstract":"espanolUna integracion eficiente de un sistema de traduccion automatica (TA) en un flujo de traduccion conlleva la necesidad de distinguir entre oraciones que se benefician de la TA y las que no antes de que pasen a manos del traductor. En este trabajo, cuestionamos el uso por separado de las dimensiones de esfuerzo de posedicion de Krings (2001) para clasificar oraciones en aptas para traducir o poseditar al entrenar modelos de prediccion y abogamos por una estrategia multidimensional. A partir de una tarea de posedicion en un escenario real, se recogen mediciones de los tres parametros de esfuerzo, a saber, tiempo, tasa de palabras poseditadas, y percepcion del esfuerzo, como representativos de las tres dimensiones (temporal, tecnica y cognitiva). Los resultados muestran que, a pesar de que existen correlaciones entre las mediciones, los parametros difieren en la clasificacion de un numero elevado de oraciones. Concluimos que la estrategia multidimensional es necesaria para estimar el esfuerzo real de posedicion. EnglishAn efficient integration of a machine translation (MT) system within a translation flow entails the need to distinguish between sentences that benefit from MT and those that do not before they are presented to the translator. In this work we question the use of Krings' (2001) post-editing effort dimensions separately to classify sentences into suitable for translation or for post-editing when training predictions models and propose a multidimensional strategy instead. We collect measurements of three effort parameters, namely, time, number of post-edited words and perception of effort, as representative of the three dimensions (temporal, technical and cognitive) in a real post-editing task. The results show that, although there are correlations between the measurements, the effort parameters differ in the classification of a considerable number of sentences. We conclude that the multidimensional strategy is necessary to estimate the overall post-editing effort.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"3-16"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45688131","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2020-01-04DOI: 10.21814/lm.11.2.292
Marcus Lepesqueur, I. A. Reis
{"title":"O uso da análise de clusters na identificação de padrões de transitividade linguística","authors":"Marcus Lepesqueur, I. A. Reis","doi":"10.21814/lm.11.2.292","DOIUrl":"https://doi.org/10.21814/lm.11.2.292","url":null,"abstract":"This paper aims to present a hierarchical clustering technique for the analysis of semantic and syntactic patterns of transitivity at clausal level. From an empirical and usage-based approach, this type of methodology has proved useful for the investigation of linguistic patterns to which speakers are exposed, reaching similar results found in theoretically categories. In a simple sampling procedure without replacement, 690 oral units were selected from a corpus of 23 oral interviews. These sentence units were analyzed in terms of nine transitivity parameters and their clausal syntax. The goal was to identify groups of sentences that share similarities in terms of this set of traits. The groups found reveal a kind of proto-conceptual meaning of the sentences, which includes correlated aspectual and actantial traits. The results show three basic micro-narrative scenarios on which the event expressed in clausal unfolds.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"33-45"},"PeriodicalIF":0.6,"publicationDate":"2020-01-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43469010","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2020-01-01DOI: 10.21814/lm.12.2.337
María José Domínguez Vázquez
{"title":"Aplicación de WordNet e de word embeddings no desenvolvemento de prototipos para a xeración automática da lingua","authors":"María José Domínguez Vázquez","doi":"10.21814/lm.12.2.337","DOIUrl":"https://doi.org/10.21814/lm.12.2.337","url":null,"abstract":"Esta presentación de dous prototipos de xeración automática de lingua natural achega unha visión de conxunto da metodoloxía aplicada na descrición e procesamento dos datos lingüísticos, así como das técnicas e ferramentas xa existentes ou desenvolvidas co fin de garantir o funcionamento dos simuladores en alemán, español e francés.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"71-80"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367731","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2020-01-01DOI: 10.21814/lm.12.2.336
Diana Santos, Eckhard Bick, Marcin Wlodek
{"title":"Avaliando entidades mencionadas na coleção ELTeC-por","authors":"Diana Santos, Eckhard Bick, Marcin Wlodek","doi":"10.21814/lm.12.2.336","DOIUrl":"https://doi.org/10.21814/lm.12.2.336","url":null,"abstract":"Este artigo relata a preparação da anotação da coleção ELTeC-por com entidades mencionadas apropriadas ao género textual \"romances e novelas publicadas entre 1840 e 1920\", para possibilitar a leitura distante em português. Em primeiro lugar apresentamos a coleção ELTeC-por, compilada no âmbito da ação COST \"Distant Reading for European Literary History\" para estudar a literatura europeia, e explicamos as diversas restrições e escolhas necessárias, fornecendo uma caracterização inicial segundo vários eixos: a origem e tamanho das obras, o seu (sub)género literário, o género do autor, o local de publicação e a existência ou não de mais edições. Em seguida apresentamos o sistema PALAVRAS-NER, com o qual anotaremos a coleção, explicando detalhadamente o seu funcionamento. Passamos então à descrição da criação de uma subcoleção de oito obras revistas, que servem, por um lado, para avaliar o desempenho do sistema de REM automático, e, por outro, para caracterizar o tipo de população esperada. As obras podem classificar-se segundo dois eixos diferentes: romances históricos vs. romances contemporâneos; e obras com grafia original ou grafia modernizada. Além disso, algumas obras são obviamente canónicas, outras não. Além da descrição quantitativa do resultado de anotação e revisão, apresentamos algumas considerações qualitativas sobre o processo. Também fornecemos uma análise detalhada de algumas categorias, tentando mostrar como os lugares, profissões e gentílicos mais mencionados podem ser indicadores numa leitura distante. Concluímos comparando com o trabalho internacional feito na análise de entidades mencionadas de obras literárias, explicando as diferenças e sugerindo trabalho futuro.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"29-49"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367478","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2020-01-01DOI: 10.21814/lm.12.2.323
Nathan Siegle Hartmann, Sandra M. Aluísio
{"title":"Adaptação Lexical Automática em Textos Informativos do Português Brasileiro para o Ensino Fundamental","authors":"Nathan Siegle Hartmann, Sandra M. Aluísio","doi":"10.21814/lm.12.2.323","DOIUrl":"https://doi.org/10.21814/lm.12.2.323","url":null,"abstract":"A Adaptação Textual é uma grande área de pesquisa do Processamento de Línguas Naturais (PLN), bastante conhecida como prática educacional, e possui duas grandes abordagens: a Simplificação e a Elaboração Textual. Não há muitos trabalhos na literatura de PLN que tratam todas as fases da Adaptação Lexical para implementação de sistemas. Vários trabalhos tratam independentemente as tarefas de Simplificação e Elaboração Lexicais, trazendo contribuições parciais, já que cada uma das tarefas possuem seus próprios desafios. Este trabalho propôs um pipeline para a Adaptação Lexical e apresenta contribuições para três das quatro etapas do pipeline, sendo elas: (i) proposta e avaliação de métodos para a tarefa de Identificação de Palavras Complexas; (ii) análise de córpus para levantamento de padrões de Elaboração Lexical do tipo definição; (iii) disponibilização do córpus SIMPLEX-PB 3.0, contendo em sua nova versão definições curtas extraídas de dicionário que foram revisadas manualmente, anotações de termos técnicos extraídas de dicionário, e métricas linguísticas de complexidade lexical; e (iv) proposta e avaliação de métodos para Simplificação Lexical, estabelecendo um novo SOTA para a tarefa aplicada no Português Brasileiro.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"3-27"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367174","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2020-01-01DOI: 10.21814/lm.12.2.331
Matilde Gonçalves, Luísa Coheur, J. Baptista, A. Mineiro
{"title":"Avaliação de recursos computacionais para o português","authors":"Matilde Gonçalves, Luísa Coheur, J. Baptista, A. Mineiro","doi":"10.21814/lm.12.2.331","DOIUrl":"https://doi.org/10.21814/lm.12.2.331","url":null,"abstract":"Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliação (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto é, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"51-68"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367392","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2020-01-01DOI: 10.21814/lm.11.2.276
J. A. Reyes-Ortíz, M. Tovar
{"title":"Extracción y análisis de las causas de suicidio a través de marcadores lingüísticos en reportes periodísticos","authors":"J. A. Reyes-Ortíz, M. Tovar","doi":"10.21814/lm.11.2.276","DOIUrl":"https://doi.org/10.21814/lm.11.2.276","url":null,"abstract":"espanolEl analisis automatico de informacion(textos) sobre el suicidio se ha convertido en un reto para el campo de investigacion en linguistica computacional, cada vez mas, son necesarias herramientas que ayuden a disminuir las tasas de suicidios, por ejemplo, extraer las causas para apoyar en su deteccion temprana. Los aspectos linguisticos en los textos en Espanol, tales como frases clave o partes de la oracion, pueden ayudar en dicha tarea. Por ello, en este articulo se presenta un enfoque computacional para la extraccion y analisis de causas a partir de cabeceras de reportes periodisticos sobre el suicidio en espanol. La tarea de extraccion automatica de causas de suicidio es llevada a cabo mediante marcadores linguisticos basados en verbos, conectores, preposiciones y conjunciones. Por su parte, el analisis de las causas de suicidio es realizado en dos enfoques: a) un analisis centrado en frases verbales y nominales, estudiando la presencia de la negacion; b) un analisis centrado en la frecuencia de los unigramas y bigramas de palabras. Ambos analisis muestran resultados prometedores, los cuales son utiles para conocer los motivos de los suicidios reportados en Mexico en un periodo determinado. Finalmente, se obtiene una coleccion de 581 causas del suicidio. EnglishThe automatic analysis of suicide data(texts) has become a challenge for the computational linguistics research field, increasingly, tools are needed to help reduce suicide rates, for example, by extracting the suicide causes in order to support their early detection. Linguistic aspects in Spanish texts, such as cue phrases or parts of speech, can help in this task. Therefore, this paper presents a computational approach to the extraction and analysis of suicide causes from news reports in Spanish. The automatic extraction of suicide causes is carried out through linguistic markers based on verbs, connectors, prepositions and conjunctions. On the other hand, the analysis of the suicides causes is performed in two approaches: a) an analysis focused on verbal and noun phrases, studying the presence of the negation; b) an analysis on the frequency about unigrams or bigrams of words. Both analyzes show promising and correlated results, which are useful for recognizing the suicide causes reported in Mexico in a given period. Finally, a corpus is obtained with a collection of 581 suicide causes.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"67-77"},"PeriodicalIF":0.6,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367560","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2019-07-20DOI: 10.21814/lm.11.1.270
Fernanda López-Escobedo, Gerardo E Sierra, Julián Solórzano-Soto
{"title":"SAUTEE: un recurso en línea para análisis estilométricos","authors":"Fernanda López-Escobedo, Gerardo E Sierra, Julián Solórzano-Soto","doi":"10.21814/lm.11.1.270","DOIUrl":"https://doi.org/10.21814/lm.11.1.270","url":null,"abstract":"La estilometría es la cuantificación del estilo por medio de la búsqueda de rasgos textuales que sean medibles y representativos del estilo de un autor. No existen muchas aplicaciones dirigidas al público en general que permitan realizar estudios de esta naturaleza, y las que existen son relativamente limitadas o no necesariamente amigables al usuario. En este artículo presentamos una aplicación web para análisis estilométrico. La aplicación está respaldada por un gestor de corpus, es de fácil manejo y presenta los resultados de manera intuitiva, sin dejar de lado la visión de ofrecer un catálogo exhaustivo de marcadores estilométricos y métodos de análisis.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"11 1","pages":"69-81"},"PeriodicalIF":0.6,"publicationDate":"2019-07-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"48553529","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}