LinguamaticaPub Date : 2017-01-07DOI: 10.21814/lm.9.1.241
Evandro Brasil da Fonseca, Vinicius Sesti, André Antonitsch, A. A. Vanin, Renata Vieira
{"title":"CORP: Uma Abordagem Baseada em Regras e Conhecimento Semântico para a Resolução de Correferências","authors":"Evandro Brasil da Fonseca, Vinicius Sesti, André Antonitsch, A. A. Vanin, Renata Vieira","doi":"10.21814/lm.9.1.241","DOIUrl":"https://doi.org/10.21814/lm.9.1.241","url":null,"abstract":"In this paper we propose the use of lexical, syntactic and semantic knowledge for coreference resolution. We conducted several experiments involving different heuristics. As a result of this study, we generated a practical system that solves coreference in Portuguese texts. In addition, it was possible to increase our recall through semantic knowledge provided by Onto.PT.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"9 1","pages":"3-18"},"PeriodicalIF":0.6,"publicationDate":"2017-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43236972","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2017-01-07DOI: 10.21814/lm.9.1.245
Brett Drury, Robson Fernandes, Alneu de Andrade Lopes
{"title":"BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para a Agricultura","authors":"Brett Drury, Robson Fernandes, Alneu de Andrade Lopes","doi":"10.21814/lm.9.1.245","DOIUrl":"https://doi.org/10.21814/lm.9.1.245","url":null,"abstract":"There has been a recent sharp increase in interest in academia and industry in applying machine learning and artificial intelligence to agricultural problems. Text mining and related natural language processing techniques, have been rarely used to tackle agricultural problems, and at the time of writing there was a single project in the Portuguese language. It is possible that the failure of researchers to use text mining techniques to analyze Portuguese texts to resolve agricultural problems may be due to a lack of freely available corpora. To correct the lack of a Portuguese language agriculture centric corpus we are releasing a Brazilian-Portuguese agricultural language resource, which is described by this paper. The corpus is partially non-contiguous and spans a time period from 1996 to 2016. It consists of news stories that have been scraped from Brazilian News sites that have been annotated with the following information types: causal, sentiment, named entities that include temporal expressions. The corpus has additional resources such as a: treebank, lists of frequent: unigrams, bigrams and trigrams, as well words or phrases that have been identified by journalists as either: ``important'' or domain specific. It is hoped that the release of this corpus will stimulate the adoption of text mining in agriculture in the Lusophonic research community.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"9 1","pages":"41-54"},"PeriodicalIF":0.6,"publicationDate":"2017-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"48852791","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2017-01-07DOI: 10.21814/lm.9.1.242
R. Pereira, H. Macedo, R. C. N. Givigi, Marco Túlio Chella
{"title":"Geração Automática de Sentenças em Língua Natural para Sequências de Pictogramas como Apoio à Comunicação Alternativa e Ampliada","authors":"R. Pereira, H. Macedo, R. C. N. Givigi, Marco Túlio Chella","doi":"10.21814/lm.9.1.242","DOIUrl":"https://doi.org/10.21814/lm.9.1.242","url":null,"abstract":"A Comunicacao Alternativa e Ampliada (CAA) e uma area de pratica clinica educacional para fonoaudiologos cujo objetivo e auxiliar individuos que possuam deficiencia na oralidade. Os simbolos de comunicacao pictorica constituem um dos sistemas da CAA que podem complementar ou mesmo substituir a linguagem falada desses individuos. E possivel utilizar a habilidade ja adquirida em comunicacao pictorica por parte de criancas com deficiencia para promover sua alfabetizacao. Infelizmente, a literatura relacionada parece nao indicar solucao pratica para tal questao. Neste artigo, propomos um metodo para geracao automatica de sentencas naturais em lingua portuguesa do Brasil que corresponda a uma dada sequencia de simbolos pictoricos apresentados. Este metodo foi implementado em uma ferramenta visual de apoio ao profissional educador e atualmente faz parte de um dos recursos de CAA do Laboratorio de CAA da Universidade Federal de Sergipe. Um conjunto de validacao fornecido pelo Laboratorio mostrou a corretude das sentencas geradas pela ferramenta.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"9 1","pages":"31-39"},"PeriodicalIF":0.6,"publicationDate":"2017-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49114397","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2017-01-07DOI: 10.21814/lm.9.1.243
Pablo Gamallo, Marcos Garcia
{"title":"LinguaKit: uma ferramenta multilingue para a análise linguística e a extração de informação","authors":"Pablo Gamallo, Marcos Garcia","doi":"10.21814/lm.9.1.243","DOIUrl":"https://doi.org/10.21814/lm.9.1.243","url":null,"abstract":"Este artigo apresenta LinguaKit, uma suite multilingue de ferramentas de analise, extracao, anotacao e correcao linguisticas. LinguaKit permite realizar tarefas tao diversas como a lematizacao, a etiquetagem morfossintatica ou a analise sintatica (entre outras), incluindo tambem aplicacoes para a analise de sentimentos (ou minaria de opinioes), a extracao de termos multipalavra, ou a anotacao concetual e ligacao a recursos enciclopedicos tais como a DBpedia. A maior parte dos modulos funcionam para quatro variedades linguisticas: portugues, espanhol, ingles e galego. A linguagem de programacao de LinguaKit e Perl, e o codigo esta disponivel sob a licenca livre GPLv3.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"9 1","pages":"19-28"},"PeriodicalIF":0.6,"publicationDate":"2017-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45218310","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2016-12-31DOI: 10.21814/LM.8.2.234
Ana Oliveira Alves, Ricardo Rodrigues, Hugo Gonçalo Oliveira
{"title":"ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português","authors":"Ana Oliveira Alves, Ricardo Rodrigues, Hugo Gonçalo Oliveira","doi":"10.21814/LM.8.2.234","DOIUrl":"https://doi.org/10.21814/LM.8.2.234","url":null,"abstract":"We present two distinct approaches to the ASSIN shared evaluation task where, given a collection with pairs of sentences, in Portuguese, poses the following challenges: (a)~computing the semantic similarity between the sentences of each pair; and (b)~testing whether one sentence paraphrases or entails the other. The first approach, dubbed Reciclagem, is exclusively based on heuristics computed on Portuguese semantic networks. The second, dubbed ASAPP, is based on supervised machine learning. The results of Reciclagem enable an indirect comparison of Portuguese semantic networks. They were then used as features of the ASAPP approach, together with lexical and syntactic features. After comparing our results with those in the gold collection, it is clear that ASAPP consistently outperforms Reciclagem. This happens both for European Portuguese and Brazilian Portuguese, where the entailment performance reaches an accuracy of 80.28% +- 0.019, and the semantic similarity scores are 66.5% +- 0.021 correlated with those given by humans.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"8 1","pages":"43-58"},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372563","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2016-12-31DOI: 10.21814/LM.8.2.235
Erick Rocha Fonseca, L. Santos, Marcelo Criscuolo, Sandra M. Aluísio
{"title":"Visão Geral da Avaliação de Similaridade Semântica e Inferência Textual","authors":"Erick Rocha Fonseca, L. Santos, Marcelo Criscuolo, Sandra M. Aluísio","doi":"10.21814/LM.8.2.235","DOIUrl":"https://doi.org/10.21814/LM.8.2.235","url":null,"abstract":"Inferencia Textual e Similaridade Semântica sao duas tarefas do processamento de linguas naturais que tratam de pares de trechos de textos. O objetivo da primeira e determinar se o significado de um trecho implica o outro, enquanto que a segunda atribui uma pontuacao de similaridade semântica ao par. Esse artigo apresenta os resultados da avaliacao conjunta ASSIN (Avaliacao de Similaridade Semântica e Inferencia) e seu corpus, que foi anotado para ambas as tarefas nas variantes brasileira e europeia da lingua portuguesa. O corpus difere de similares na literatura em suas tres classes para a tarefa de inferencia textual (Implicacao, Parafrase e Neutro) e por ter sido composto de sentencas extraidas de textos jornalisticos. Seis equipes participaram da avaliacao conjunta, explorando diferentes estrategias.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"35 1","pages":"3-13"},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372163","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2016-12-31DOI: 10.21814/LM.8.2.233
Pedro Fialho, Ricardo Marques, Bruno Martins, Luísa Coheur, Paulo Quaresma
{"title":"INESC-ID@ASSIN: Medição de Similaridade Semântica e Reconhecimento de Inferência Textual","authors":"Pedro Fialho, Ricardo Marques, Bruno Martins, Luísa Coheur, Paulo Quaresma","doi":"10.21814/LM.8.2.233","DOIUrl":"https://doi.org/10.21814/LM.8.2.233","url":null,"abstract":"In this article we present INESC-ID@ASSIN, a system that competed in the 2016 joint evaluation effort entitled Avaliacao de Similaridade Semântica e Inferencia Textual (ASSIN), in the tasks of semantic similarity and textual entailment recognition. INESC-ID@ASSIN addresses the problem of detecting sentence similarity as a regression task, and it addresses textual entailment as a classification task. Although INESC-ID@ASSIN relies mainly on simple lexical features for detecting paraphrases and recognizing textual entailment, promising results were achieved in this joint evaluation.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"8 1","pages":"33-42"},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372488","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2016-12-31DOI: 10.21814/LM.8.2.231
Luciano Barbosa, P. R. Cavalin, Victor Guimarães, Matthias Kormaksson
{"title":"Blue Man Group no ASSIN: Usando Representações Distribuídas para Similaridade Semântica e Inferência Textual","authors":"Luciano Barbosa, P. R. Cavalin, Victor Guimarães, Matthias Kormaksson","doi":"10.21814/LM.8.2.231","DOIUrl":"https://doi.org/10.21814/LM.8.2.231","url":null,"abstract":"In this paper, we present the methodology and the results obtained by our team, dubbed Blue Man Group, in the ASSIN (from the Portuguese Avaliacao de Similaridade Semântica e Inferencia Textual) competition, held at PROPOR 2016. Our team's strategy consisted of evaluating methods based on semantic word vectors, following two distinct directions: 1) to make use of low-dimensional, compact, feature sets, and 2) deep learning-based strategies dealing with high-dimensional feature vectors. Evaluation results demonstrated that the first strategy was more promising, so that the results from the second strategy have been discarded. As a result, by considering the best run of each of the six participant teams, we have been able to achieve the best accuracy and F1 values in entailment recognition, in the Brazilian Portuguese set, and the best F1 score considering also the Portuguse from Portugal set. In the semantic similarity task, our team was ranked second in the Brazilian Portuguese set, and third considering both sets.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"19 1","pages":"15-22"},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372536","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2016-12-31DOI: 10.21814/LM.6.1.178
Brandão Simões, Alberto Manuel
{"title":"Editorial e Prefácio","authors":"Brandão Simões, Alberto Manuel","doi":"10.21814/LM.6.1.178","DOIUrl":"https://doi.org/10.21814/LM.6.1.178","url":null,"abstract":"Editorial Este ano de 2014 e iniciado com uma edicao especial. Assim como em 2010, publicamos um conjunto de artigos alargados, seleccionados dos artigos aceites no nono Simposio Brasileiro de Tecnologia da Informacao e Linguagem Humana (STIL). Portanto, esta edicao abre com tres artigos seleccionados da edicao de 2013 do STIL que abordam diferentes aspectos da linguagem natural: em primeiro lugar a geracao de texto de forma a descrever o ambiente virtual em que um utilizador se encontra; posteriormente sera discutida a analise de coerencia no uso de entidades em textos cientificos; finalmente sera apresentado um sistema para o reconhecimento de entidades mencionadas, ou nomeadas. Para completar o volume, incluimos neste numero especial dois artigos de investigacao que nao fazem parte do STIL: primeiro um trabalho relacionado com a previsao, usando diferentes tipos de regressao e dados extraidos de texto escrito em linguagem natural; e em seguida, um trabalho sobre a anotacao e disponibilizacao de corpos paralelos criados a partir de trabalhos de traducao de alunos, de modo a serem uteis para, entre outras coisas, o proprio ensino de linguas. Alberto Simoes Jose Joao Almeida Xavier Gomez Guinovart Prefacio O Simposio Brasileiro de Tecnologia da Informacao e da Linguagem Humana (STIL) e o principal evento nacional apoiado e organizado pela Comissao Especial de Processamento de Linguagem Natural (CE-PLN) da Sociedade Brasileira de Computacao (SBC). O evento foi concebido em 2003 com o nome TIL (Workshop de Tecnologia da Informacao e da Linguagem Humana), tendo o proposito de estimular o desenvolvimento de uma area genuinamente multidisciplinar, procurando atrair pesquisadores, membros da comunidade academica e da industria que atuam nas areas de Ciencia da Computacao, Linguistica e Ciencia da Informacao, entre outras, pois o processamento computacional das linguas humanas requer a coordenacao de esforcos de diversas comunidades, que contribuem com conhecimentos especificos e metodologias de pesquisa proprias no desenvolvimento de tecnicas e sistemas. O principal objetivo do STIL e fornecer o forum adequado para a integracao dessas comunidades. Em 2003, foi realizado na USP-Sao Carlos/SP; em 2004 e 2005 foi hospedado pelo Congresso da SBC em Salvador/BA e Sao Leopoldo/RS, respectivamente; em 2006, o evento foi hospedado pela International Joint Conference IBERAMIA/SBIA/SBRN, em Ribeirao Preto/SP, que consistiu no maior evento de Inteligencia Artificial ja realizado no Brasil. A 5a. edicao do evento foi hospedada novamente pelo XXVII Congresso da SBC no Rio de Janeiro/RJ, no Instituto Militar de Engenharia-IME. A 6a. edicao do evento foi realizado em 2008 juntamente com o Webmedia, em Vila Velha-ES, e foi a ultima com o nome de TIL. A 7a. edicao, ja com o nome de STIL, foi realizada na USP-Sao Carlos/SP em 2009. A 8a edicao ocorreu em Cuiaba/MT em 2011, na UFMT. A 9a. edicao foi realizada em Fortaleza/CE em 2013, juntamente com o 2o. Brazilian Confer","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"6 1","pages":"3-11"},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68370842","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2016-12-31DOI: 10.21814/LM.8.2.232
Jânio Freire, Vládia Pinheiro, David Feitosa
{"title":"FlexSTS: Um Framework para Similaridade Semântica Textual","authors":"Jânio Freire, Vládia Pinheiro, David Feitosa","doi":"10.21814/LM.8.2.232","DOIUrl":"https://doi.org/10.21814/LM.8.2.232","url":null,"abstract":"Desde 2012, os eventos de Semantic Evaluation (SemEval) propoem a tarefa de Similaridade Semântica Textual (STS) como um tema de competicao, demonstrando sua relevância. Em 2016, a tarefa foi, pela primeira vez, proposta para lingua portuguesa, no Workshop de Avaliacao de Similaridade Semântica e Inferencia Textual (ASSIN), realizado durante a conferencia PROPOR 2016. Neste trabalho, apresentamos o FlexSTS --- um framework flexivel para STS que combina diversos componentes como parsers morfologicos e sintaticos, bases de conhecimento e lexicais, algoritmos de aprendizagem automatica, e algoritmos de alinhamento e calculo da similaridade. Para a ASSIN, FlexSTS foi instanciado em tres sistemas de STS para lingua portuguesa. Os resultados obtidos foram comparados com uma abordagem baseline que utiliza o coeficiente DICE.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"8 1","pages":"23-31"},"PeriodicalIF":0.6,"publicationDate":"2016-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68372296","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}