LinguamaticaPub Date : 2023-01-07DOI: 10.21814/lm.14.2.376
Kenia Nieto-Benitez, Noé Alejandro Castro-Sánchez, H. Jiménez-Salazar, Gemma Bel-Enguix
{"title":"Corpus de falacias por apelación a las emociones: una aproximación a la identificación automática de falacias","authors":"Kenia Nieto-Benitez, Noé Alejandro Castro-Sánchez, H. Jiménez-Salazar, Gemma Bel-Enguix","doi":"10.21814/lm.14.2.376","DOIUrl":"https://doi.org/10.21814/lm.14.2.376","url":null,"abstract":"Los discursos políticos en campañas electorales están orientados a movilizar y atraer con mensajes persuasivos al electorado y principalmente se argumenta apelando a las emociones incurriendo en falacias. Este artículo presenta un corpus de falacias en discursos políticos elaborados por candidatos a la presidencia de México, con el objetivo de obtener un recurso lingüístico en español que permita desarrollar sistemas computacionales para su minería. Hasta ahora no se conoce un corpus de falacias para el idioma español y los corpus de argumentos elaborados en el área de Minería de Argumentos se limitan a un etiquetado de la estructura argumentativa y no están elaborados a partir de discursos políticos. El corpus se elaboró con argumentos extraídos de los discursos y se realizó una anotación manual de premisas y conclusiones. Se obtuvo un acuerdo entre anotadores de 0.692utilizando el índice kappa de Cohen. Posteriormente, se identificaron los argumentos válidos y las falacias, y como resultado se obtuvo un acuerdo de 0.442 con el mismo índice. Como contribución adicional, se presenta una línea base para la identificación de falacias utilizando los métodos de similitud coseno, support vector machine, logistic regression y decision trees, y la extracción de términos afectivos en los argumentos. En esta línea base se obtuvo un F1-score de 0.62 y es un resultado de comparación para futuras investigaciones.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"14 1","pages":"59-72"},"PeriodicalIF":0.6,"publicationDate":"2023-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47418316","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2023-01-07DOI: 10.21814/lm.14.2.369
Ana Cleyge de Azevedo, João Queiroz, Angelo Loula
{"title":"PROPOE (prose to poetry) geração computacional de poemas metrificados a partir da prosa literária em língua portuguesa","authors":"Ana Cleyge de Azevedo, João Queiroz, Angelo Loula","doi":"10.21814/lm.14.2.369","DOIUrl":"https://doi.org/10.21814/lm.14.2.369","url":null,"abstract":"A geração computacional do que pode ser concebido e reconhecido como \"poesia verbal\" é explorada, há muitas décadas, em muitas línguas naturais. Mas apenas projetos recentemente desenvolvidos possuem aplicação intensiva da computação, considerando muitos níveis de organização, linguísticos e paralinguísticos, fonológicos, rítmicos, sintáticos, semânticos, e até pragmáticos. O que apresentamos aqui é um sistema de geração computacional de poemas, o PROPOE (Prose to Poem). Ele trabalha em conjunto com uma ferramenta de \"mineração\" de estruturas de versificação na prosa de língua portuguesa, o MIVES (Mining Verse Structure). O PROPOE gera poemas em língua portuguesa a partir de sentenças versificadas (estruturas heterométricas de versificação) identificadas e classificadas pelo MIVES, e extraídas da prosa literária. O PROPOE combina sentenças, gerando poemas baseados na otimização de critérios rítmicos e fonológicos. É aplicado um \"algoritmo guloso\" (greedy algorithm) cujo propósito é identificar a melhor combinação das sentenças, considerando normas rítmicas estabelecidas para o português. Em uma etapa final, realiza-se uma avaliação automatizada do resultado, atribuindo uma pontuação de acordo com a identificação de algum padrão considerado ótimo em poemas com métricas regulares, tendo como base esquema rítmico e adequação a estruturas rímicas.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"14 1","pages":"3-21"},"PeriodicalIF":0.6,"publicationDate":"2023-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45951153","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2023-01-07DOI: 10.21814/lm.14.2.375
R. Alfaro, René Venegas, A. Bronfman, M. Valenzuela, Stephanie Riff, Enrique Sologuren
{"title":"ARAPP: Análisis y Resumen Automático de Políticas de Privacidad","authors":"R. Alfaro, René Venegas, A. Bronfman, M. Valenzuela, Stephanie Riff, Enrique Sologuren","doi":"10.21814/lm.14.2.375","DOIUrl":"https://doi.org/10.21814/lm.14.2.375","url":null,"abstract":"Un derecho fundamental de los usuarios de aplicaciones informáticas es que puedan conocer las políticas de privacidad (PP) que tales aplicaciones establecen, en particular es relevante que conozcan acerca del tratamiento que aceptan sobre el uso de sus datos. No obstante, estas PP son muy extensas y escritas en un lenguaje administrativo-jurídico y comercial, lo que dificulta su lectura y comprensión. El objetivo de este artículo es resumir automatizadamente las PP de cinco aplicaciones de redes sociales (Facebook, Twitter, TikTok, Snapchat e Instagram) en español, a través de técnicas extractivas y abstractivas. Para ello se utilizan tres aproximaciones de representación desde el Procesamiento de Lenguaje Natural, estas son: Teoría de Grafos, TF-IDF y Gensim. A partir de ellas, se generan automáticamente 15 resúmenes, los que son evaluados por un experto en derecho, para medir la legibilidad y relevancia en base a 20 preguntas confeccionadas por un estudio de la Universidad de Austin, Texas. Por último, a partir de una clasificación de cada política de privacidad, según distintos factores de riesgos, se comprueba que el método Gensim es el más adecuado para la representación y resumen. Además se identifica a Snapchat como la aplicación que mejor cumple dichosfactores.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"14 1","pages":"23-35"},"PeriodicalIF":0.6,"publicationDate":"2023-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44944342","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2022-07-02DOI: 10.21814/lm.14.1.359
E. Seno, Helena de Medeiros Caseli, M. Inácio, Rafael Torres Anchiêta, Renata Ramisch
{"title":"XPTA: um parser AMR para o Português baseado em uma abordagem entre línguas","authors":"E. Seno, Helena de Medeiros Caseli, M. Inácio, Rafael Torres Anchiêta, Renata Ramisch","doi":"10.21814/lm.14.1.359","DOIUrl":"https://doi.org/10.21814/lm.14.1.359","url":null,"abstract":"O crescente interesse pelo processamento semântico automático, especialmente por parte dos pesquisadores de Compreensão e de Geração de Língua Natural, tem levado a muitas pesquisas relacionadas ao desenvolvimento de parsers semânticos. E, nesse contexto, a AMR (Abstract Meaning Representation) é um dos formalismos de representação semântica que tem recebido mais atenção recentemente, devido à sua maneira relativamente simples de capturar o significado de uma sentença. A construção de parsers AMR é em grande parte baseada em córpus de referência anotados por humanos. Contudo, esse recurso é ainda bastante escasso para muitas línguas como o português. Por esse motivo, várias pesquisas têm explorado o uso de abordagens entre línguas (cross-lingual), que partem de córpus e parser existentes em uma língua fonte, para o desenvolvimento de recursos semânticos para outras línguas alvo. Dado esse contexto, este artigo descreve o XPTA, um parser AMR para o português (PT) que se baseia na abordagem entre línguas (cross-lingual, X). O XPTA parte de parser AMR existente para o inglês e de vários recursos linguísticos-computacionais bilíngues inglês--português e mapeia o conhecimento semântico disponível no inglês para a representação do significado equivalente em português. Uma avaliação automática do XPTA mostrou que a abordagem adotada é promissora e os valores obtidos para Smatch (66%, no melhor caso) apontaram que o modelo tem potencial para competir com os resultados apresentados na literatura para outros idiomas. Além da análise automática, uma análise qualitativa dos grafos gerados possibilitou identificar e categorizar os principais erros do modelo e suas possíveis causas.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"14 1","pages":"49-68"},"PeriodicalIF":0.6,"publicationDate":"2022-07-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43760302","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2022-07-02DOI: 10.21814/lm.14.1.354
Leonardo de Andrade, Ivandré Paraboni
{"title":"Detecção de quebras em diálogos humano-computador","authors":"Leonardo de Andrade, Ivandré Paraboni","doi":"10.21814/lm.14.1.354","DOIUrl":"https://doi.org/10.21814/lm.14.1.354","url":null,"abstract":"Com o crescimento constante no uso de tecnologias de relacionamento com o consumidor na Internet, os sistemas de chatbot se tornaram onipresentes no processamento de linguagem natural (PLN) e áreas relacionadas. Apesar dos avanços significativos nos últimos anos, no entanto, sistemas desse tipo nem sempre fornecem resultados plausíveis e consistentes, em muitos casos levando a uma quebra no diálogo. Assim, há grande interesse em investigar as circunstâncias nas quais erros deste tipo são produzidos e, quando possível, aprimorar o projeto destes sistemas de modo a minimizar tais erros. Com base nestas observações, neste trabalho abordamos a questão da detecção automática de quebras em diálogos humano-computador apresentando três modelos que levam em consideração o histórico de diálogo para decidir quando ele possui maior probabilidade de culminar em uma quebra. Os modelos propostos exploram uma variedade de métodos de PLN recentes, e são avaliados tanto com base em um conjunto de dados de diálogos reais em português entre usuários humanos e sistemas de chatbot desenvolvido especificamente para este fim, como também utilizando benchmarks publicamente disponíveis para o idioma inglês.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"14 1","pages":"17-31"},"PeriodicalIF":0.6,"publicationDate":"2022-07-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47343439","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2022-07-02DOI: 10.21814/lm.14.1.342
Gemma Bel Enguix, Helena Gómez-Adorno, K. Mendoza, Grigori Sidorov, J. Vásquez
{"title":"La #felicidad en Twitter: ¿qué representa realmente?","authors":"Gemma Bel Enguix, Helena Gómez-Adorno, K. Mendoza, Grigori Sidorov, J. Vásquez","doi":"10.21814/lm.14.1.342","DOIUrl":"https://doi.org/10.21814/lm.14.1.342","url":null,"abstract":"Existe un gran número de trabajos que tienen por objeto la clasificación de diversos tipos de documentos, desde textos literarios hasta interacciones informales en redes sociales como Twitter, de acuerdo a los sentimientos que pretenden evocar. Se pueden realizar clasificaciones muy variadas con base en los sentimientos que el autor considere. El objetivo de este artículo es clasificar una recopilación de tuits en diferentes contextos en los que la palabra \"feliz\" o \"felicidad\" se pueden emplear; por ejemplo publicidad, felicitaciones o como un simple sarcasmo. Para esto se hará uso de sistemas de aprendizaje supervisado y se emplearán varios métodos de procesamiento de lenguaje natural como tokenización, identificación de palabras funcionales y n-gramas.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"14 1","pages":"3-15"},"PeriodicalIF":0.6,"publicationDate":"2022-07-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45992634","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2022-01-01DOI: 10.21814/lm.14.1.358
Rafael Torres Anchiêta, T. Pardo
{"title":"Análise Semântica com base em AMR para o Português","authors":"Rafael Torres Anchiêta, T. Pardo","doi":"10.21814/lm.14.1.358","DOIUrl":"https://doi.org/10.21814/lm.14.1.358","url":null,"abstract":"","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"108 1","pages":"33-48"},"PeriodicalIF":0.6,"publicationDate":"2022-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367845","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2021-12-30DOI: 10.21814/lm.13.2.350
Hugo Gonçalo Oliveira, A. Alves
{"title":"AIA-BDE: um Corpo de Perguntas, Variações e outras Anotações","authors":"Hugo Gonçalo Oliveira, A. Alves","doi":"10.21814/lm.13.2.350","DOIUrl":"https://doi.org/10.21814/lm.13.2.350","url":null,"abstract":" Apresentamos neste artigo o corpo AIA-BDE, que tem como principal objetivo a avaliação de sistemas que procuram associar necessidades de informação expressas em linguagem natural a perguntas com resposta conhecida (i.e., FAQ). Este corpo inclui várias perguntas no domínio da Administração Pública em Portugal e respetivas respostas. A 855 dessas perguntas foram adicionadas, manual e automaticamente, formas alternativas de as fazer, a que chamamos variações, e que podem ser utilizadas para simular interações de humanos. Essas perguntas encontram-se classificadas de acordo com a sua origem, com quatro valores possíveis, e têm ainda associado um tipo, atribuído com base na opinião de cinco anotadores. Para além de apresentar o AIA-BDE, ilustramos como pode ser utilizado através de três experiências, com resultados que podem ser vistos como base para melhorias futuras: associação de variações às respetivas perguntas; identificação automática da origem das variações; e classificação automática das perguntas quanto ao seu tipo.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"13 1","pages":"19-35"},"PeriodicalIF":0.6,"publicationDate":"2021-12-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43334066","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2021-12-30DOI: 10.21814/lm.13.2.347
Pablo Gamallo, José Ramom Pichel, José Martinho Montero Santalha, Marco Neves
{"title":"Uso de tecnologias linguı'sticas para estudar a evolução dos sufixos -ÇOM e -VEL no galego-português medieval a partir de corpora históricos","authors":"Pablo Gamallo, José Ramom Pichel, José Martinho Montero Santalha, Marco Neves","doi":"10.21814/lm.13.2.347","DOIUrl":"https://doi.org/10.21814/lm.13.2.347","url":null,"abstract":"O trabalho apresentado neste artigo tem dois objectivos. Por um lado, descreve a adaptação de duas ferramentas de processamento da língua natural ao galego-português medieval, nomeadamente um analisador morfossintático e um reconhededor de variedades medievais, e por outro, visa testar hipóteses linguísticas sobre a evolução de sufixos medievais mediante o uso dessas ferramentas em corpora históricos. Apesar de o desempenho das ferramentas ser inferior do que quando utilizadas para variedades modernas mais estandardizadas e com menos variabilidade formal, mostramos que é possível usá-las com grande fiabilidade para estudos quantitativos baseados em corpus. O estudo linguístico baseado em corpus permite-nos conferir que, pela sua distribuição de frequências, a presença dos sufixos -CION e -BLE nos textos medievais da Galiza foi provavelmente influenciada pelo castelhano baixo medieval.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"13 1","pages":"3-17"},"PeriodicalIF":0.6,"publicationDate":"2021-12-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47882976","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
LinguamaticaPub Date : 2021-07-10DOI: 10.21814/lm.13.1.340
H. Lu, A. Cheng, Meng-Hsin Yeh, Chao Lu, Ruth Alegre Di Lascio
{"title":"Corpus Paralelo de Español, Inglés y Chino y Análisis contrastivo del tiempo pasado del español a partir de corpus","authors":"H. Lu, A. Cheng, Meng-Hsin Yeh, Chao Lu, Ruth Alegre Di Lascio","doi":"10.21814/lm.13.1.340","DOIUrl":"https://doi.org/10.21814/lm.13.1.340","url":null,"abstract":"El presente estudio se dedica al desarrollo de un corpus paralelo trilingüe denominado CPEIC (Corpus Paralelo de Español, Inglés y Chino) cuyo fin es el de aportar conocimientos a las investigaciones sobre la traducción, el análisis contrastivo, el aprendizaje y la enseñanza de una lengua extranjera. Dicho CPEIC abarca las tres lenguas más habladas del mundo (español, inglés y chino) y contiene aproximadamente 4 millones de palabras. Basándose en el corpus paralelo desarrollado, se realizó un análisis contrastivo del tiempo pasado, el cual se expresa de manera diferente en las tres lenguas mencionadas. Los resultados obtenidos (a) avalan estudios previos sobre la relación entre el pretérito del español con el marcador aspectual chino \"le\", así como también la relación entre el imperfecto del español con \"would\" y \"was/were+Ving\" del inglés, (b) contradicen las presunciones con respecto a la conexión entre el imperfecto del español y el marcador aspectual chino \"zhe\", y (c) proporcionan una nueva perspectiva sobre la relación entre el pretérito del español y la voz pasiva en los tres idiomas.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"13 1","pages":"23-30"},"PeriodicalIF":0.6,"publicationDate":"2021-07-10","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44875232","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}