Detección de Patrones Psicolingüísticos para el Análisis de Lenguaje Subjetivo en Español

IF 1.2 Q4 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE
María del Pilar Salas-Zárate
{"title":"Detección de Patrones Psicolingüísticos para el Análisis de Lenguaje Subjetivo en Español","authors":"María del Pilar Salas-Zárate","doi":"10.26342/2018-60-10","DOIUrl":null,"url":null,"abstract":"OBJETIVOS. La clasificacion automatica de opiniones requiere un esfuerzo multidisciplinario, donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Un aspecto importante a considerar en la clasificacion de opiniones es el lenguaje figurado tal como la ironia, el sarcasmo y la satira, ya que el doble sentido expresado en una opinion o comentario puede invertir la polaridad de la opinion. El objetivo principal de esta tesis es la deteccion de patrones psicolinguisticos para el analisis de lenguaje subjetivo en espanol. Especificamente, se establecieron 4 objetivos especificos: 1) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de sentimientos; 2) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de textos satiricos y no satiricos; 3) validacion del metodo para el analisis de sentimientos en diversos dominios como el turistico y peliculas; 4) validacion del metodo para la deteccion automatica de la satira en el dominio de noticias. METODOLOGIA. Para lograr este objetivo, primero se lleva a cabo un estudio del estado del arte que incluye tecnologias de procesamiento de lenguaje natural, analisis de sentimientos y lenguaje subjetivo. Especificamente, los diferentes niveles de procesamiento, principales enfoques del analisis de sentimientos, niveles de procesamiento de la opinion, bases de conocimiento, recursos linguisticos disponibles y principales tecnicas para la deteccion del lenguaje figurado. Posteriormente, se realiza el diseno e implementacion de un metodo para el analisis de sentimientos y deteccion de la satira basados en caracteristicas psicolinguisticas. Finalmente, la propuesta se valida en diferentes dominios. Concretamente, el metodo de analisis de sentimientos se aplica al dominio turistico y de peliculas; y el metodo de deteccion de la satira se aplica en el dominio de noticias en redes sociales. RESULTADOS. Como resultado se obtiene: o Un metodo para la clasificacion de sentimientos y deteccion de la satira. Este metodo permite clasificar opiniones como positivas, negativas, neutras, muy positivas y muy negativas y tweets como satiricos y no satiricos. o Un proceso para el pre-procesamiento de tweets en espanol. o Un corpus en el dominio del turismo. El corpus contiene 1600 opiniones sobre hoteles, restaurantes, museos, entre otros temas, las cuales son clasificadas con su respectiva polaridad (positivo, negativo, neutro, muy positivo, muy negativo). o Un corpus de tweets satiricos y no satiricos. Este corpus consiste en un conjunto de 10000 tweets etiquetados como satiricos y no satiricos extraidos desde diversas cuentas de Twitter. o Un conjunto de caracteristicas psicolinguisticas para la clasificacion de sentimientos y deteccion de la satira. CONCLUSIONES. La clasificacion automatica de opiniones requiere un esfuerzo donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Gracias a estas disciplinas fue posible entender de mejor manera el lenguaje humano, clasificar las opiniones y resumir los sentimientos expresados en textos. Por otro lado, el lenguaje figurado es uno de los temas mas dificiles del PLN, ya que a diferencia del lenguaje literal, el escritor toma ventaja de diversas figuras linguisticas tales como la metafora, la analogia, la ambiguedad, entre otros, para proyectar significados mas complejos. Este tipo de lenguaje es dificil de entender no solo para las computadoras, sino tambien para el ser humano. Esta tesis describio un metodo para la deteccion de patrones psicolinguisticos para el analisis de sentimientos y la deteccion automatica de la satira. Las caracteristicas psicolinguisticas, junto con tecnicas de procesamiento de lenguaje natural y mineria de datos, resultaron ser efectivas para la deteccion de sentimientos y de la satira. Ademas, la validacion de los metodos en diversos dominios ha demostrado la efectividad de nuestro enfoque para clasificar opiniones y tweets. AIMS OF THE THESIS. The linguistic and natural language processing play an important role in the automatic classification of opinions. Furthermore, the figurative language is an important aspect to be considered in sentiment analysis, because of the double meaning expressed in the opinion can reverse the polarity of an opinion. The main goal of this thesis is to detect psycholinguistic patterns for the analysis of subjective language in Spanish. Four specific aims are established: 1) design of a method for detecting psycholinguistic patterns for sentiment analysis; 2) design of a method for detecting psycholinguistic patterns for the analysis of satirical texts; 3) validation of the method for sentiment analysis in different contexts, namely, tourism and movies domains; 4) validation of the method for automatic detection of satire in the news domain. METHODOLOGY. The methodology proposed is based on the analysis of the state of the art. This analysis includes technologies such as natural language processing, sentiment analysis, and subjective language. Furthermore, this task involves the analysis of the different levels of natural language processing, sentiment analysis approaches, levels of processing of opinions, knowledge bases, available linguistic resources, and main techniques for the detection of figurative language. Subsequently, a psycholinguistic features-based method for the sentiment analysis and detection of satire is designed and implemented. Finally, the proposal is validated in different domains. Specifically, the method of sentiment analysis is applied to the tourist and movies domain, and the method of satire detection is applied in the news domain in social networks. RESULTS. The main contributions of this work are: o A method for sentiment analysis and detection of satire. This method classifies opinions as positive, negative, neutral, very positive and very negative; and tweets as satirical and non-satirical. o A process for the pre-processing of tweets in Spanish. o A corpus in the tourism domain. The corpus contains 1600 reviews about hotels, restaurants, museums, among other topics, which are classified with their respective polarity (positive, negative, neutral, very positive, very negative). o A corpus of satirical and non-satirical tweets. This corpus consists of 10000 tweets tagged as satirical and non-satirical. These tweets were extracted from different Twitter accounts. o A set of psycholinguistic features for the sentiment analysis and detection of satire. CONCLUSIONS. The automatic classification of opinions requires a multidisciplinary approach where linguist and natural language processing need to be involved. Theses disciplines allow understanding the human language, classify opinions and summarize the sentiment expressed about a product, and other aspects. However, the figurative language expressed in some texts uses linguistic figures such as metaphor, analogy, and ambiguity, among others. This fact makes difficult to understand this kind of language, not only for computers but also by humans. This thesis described a method for the detection of psycholinguistic patterns for sentiment analysis and the automatic detection of satire. The psycholinguistic features, in conjunction with natural language processing and data mining technologies, demonstrated to be effective for the detection of sentiments and satire. In addition, the validation of the method in different domains verified its effectiveness for the classification of opinions and tweets.","PeriodicalId":43929,"journal":{"name":"Procesamiento del Lenguaje Natural","volume":"142 1","pages":"79-82"},"PeriodicalIF":1.2000,"publicationDate":"2018-03-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Procesamiento del Lenguaje Natural","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.26342/2018-60-10","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE","Score":null,"Total":0}
引用次数: 1

Abstract

OBJETIVOS. La clasificacion automatica de opiniones requiere un esfuerzo multidisciplinario, donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Un aspecto importante a considerar en la clasificacion de opiniones es el lenguaje figurado tal como la ironia, el sarcasmo y la satira, ya que el doble sentido expresado en una opinion o comentario puede invertir la polaridad de la opinion. El objetivo principal de esta tesis es la deteccion de patrones psicolinguisticos para el analisis de lenguaje subjetivo en espanol. Especificamente, se establecieron 4 objetivos especificos: 1) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de sentimientos; 2) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de textos satiricos y no satiricos; 3) validacion del metodo para el analisis de sentimientos en diversos dominios como el turistico y peliculas; 4) validacion del metodo para la deteccion automatica de la satira en el dominio de noticias. METODOLOGIA. Para lograr este objetivo, primero se lleva a cabo un estudio del estado del arte que incluye tecnologias de procesamiento de lenguaje natural, analisis de sentimientos y lenguaje subjetivo. Especificamente, los diferentes niveles de procesamiento, principales enfoques del analisis de sentimientos, niveles de procesamiento de la opinion, bases de conocimiento, recursos linguisticos disponibles y principales tecnicas para la deteccion del lenguaje figurado. Posteriormente, se realiza el diseno e implementacion de un metodo para el analisis de sentimientos y deteccion de la satira basados en caracteristicas psicolinguisticas. Finalmente, la propuesta se valida en diferentes dominios. Concretamente, el metodo de analisis de sentimientos se aplica al dominio turistico y de peliculas; y el metodo de deteccion de la satira se aplica en el dominio de noticias en redes sociales. RESULTADOS. Como resultado se obtiene: o Un metodo para la clasificacion de sentimientos y deteccion de la satira. Este metodo permite clasificar opiniones como positivas, negativas, neutras, muy positivas y muy negativas y tweets como satiricos y no satiricos. o Un proceso para el pre-procesamiento de tweets en espanol. o Un corpus en el dominio del turismo. El corpus contiene 1600 opiniones sobre hoteles, restaurantes, museos, entre otros temas, las cuales son clasificadas con su respectiva polaridad (positivo, negativo, neutro, muy positivo, muy negativo). o Un corpus de tweets satiricos y no satiricos. Este corpus consiste en un conjunto de 10000 tweets etiquetados como satiricos y no satiricos extraidos desde diversas cuentas de Twitter. o Un conjunto de caracteristicas psicolinguisticas para la clasificacion de sentimientos y deteccion de la satira. CONCLUSIONES. La clasificacion automatica de opiniones requiere un esfuerzo donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Gracias a estas disciplinas fue posible entender de mejor manera el lenguaje humano, clasificar las opiniones y resumir los sentimientos expresados en textos. Por otro lado, el lenguaje figurado es uno de los temas mas dificiles del PLN, ya que a diferencia del lenguaje literal, el escritor toma ventaja de diversas figuras linguisticas tales como la metafora, la analogia, la ambiguedad, entre otros, para proyectar significados mas complejos. Este tipo de lenguaje es dificil de entender no solo para las computadoras, sino tambien para el ser humano. Esta tesis describio un metodo para la deteccion de patrones psicolinguisticos para el analisis de sentimientos y la deteccion automatica de la satira. Las caracteristicas psicolinguisticas, junto con tecnicas de procesamiento de lenguaje natural y mineria de datos, resultaron ser efectivas para la deteccion de sentimientos y de la satira. Ademas, la validacion de los metodos en diversos dominios ha demostrado la efectividad de nuestro enfoque para clasificar opiniones y tweets. AIMS OF THE THESIS. The linguistic and natural language processing play an important role in the automatic classification of opinions. Furthermore, the figurative language is an important aspect to be considered in sentiment analysis, because of the double meaning expressed in the opinion can reverse the polarity of an opinion. The main goal of this thesis is to detect psycholinguistic patterns for the analysis of subjective language in Spanish. Four specific aims are established: 1) design of a method for detecting psycholinguistic patterns for sentiment analysis; 2) design of a method for detecting psycholinguistic patterns for the analysis of satirical texts; 3) validation of the method for sentiment analysis in different contexts, namely, tourism and movies domains; 4) validation of the method for automatic detection of satire in the news domain. METHODOLOGY. The methodology proposed is based on the analysis of the state of the art. This analysis includes technologies such as natural language processing, sentiment analysis, and subjective language. Furthermore, this task involves the analysis of the different levels of natural language processing, sentiment analysis approaches, levels of processing of opinions, knowledge bases, available linguistic resources, and main techniques for the detection of figurative language. Subsequently, a psycholinguistic features-based method for the sentiment analysis and detection of satire is designed and implemented. Finally, the proposal is validated in different domains. Specifically, the method of sentiment analysis is applied to the tourist and movies domain, and the method of satire detection is applied in the news domain in social networks. RESULTS. The main contributions of this work are: o A method for sentiment analysis and detection of satire. This method classifies opinions as positive, negative, neutral, very positive and very negative; and tweets as satirical and non-satirical. o A process for the pre-processing of tweets in Spanish. o A corpus in the tourism domain. The corpus contains 1600 reviews about hotels, restaurants, museums, among other topics, which are classified with their respective polarity (positive, negative, neutral, very positive, very negative). o A corpus of satirical and non-satirical tweets. This corpus consists of 10000 tweets tagged as satirical and non-satirical. These tweets were extracted from different Twitter accounts. o A set of psycholinguistic features for the sentiment analysis and detection of satire. CONCLUSIONS. The automatic classification of opinions requires a multidisciplinary approach where linguist and natural language processing need to be involved. Theses disciplines allow understanding the human language, classify opinions and summarize the sentiment expressed about a product, and other aspects. However, the figurative language expressed in some texts uses linguistic figures such as metaphor, analogy, and ambiguity, among others. This fact makes difficult to understand this kind of language, not only for computers but also by humans. This thesis described a method for the detection of psycholinguistic patterns for sentiment analysis and the automatic detection of satire. The psycholinguistic features, in conjunction with natural language processing and data mining technologies, demonstrated to be effective for the detection of sentiments and satire. In addition, the validation of the method in different domains verified its effectiveness for the classification of opinions and tweets.
西班牙语主观语言分析的心理语言模式检测
目标。意见的自动分类需要多学科的努力,其中语言学和自然语言处理发挥着重要作用。在对意见进行分类时,需要考虑的一个重要方面是比喻性语言,如反讽、讽刺和讽刺,因为在意见或评论中表达的双关语可以扭转意见的极性。本文的主要目的是检测西班牙语主观语言分析的心理语言学模式。具体而言,我们设定了4个具体目标:1)设计一种检测情绪分析心理语言模式的方法;2)设计一种用于分析讽刺和非讽刺文本的心理语言模式检测方法;3)在旅游、电影等各个领域验证情感分析方法;4)新闻领域讽刺自动检测方法的验证。METODOLOGIA。为了实现这一目标,首先进行了一项最先进的研究,包括自然语言处理技术、情感分析和主观语言。具体来说,不同的加工水平,情绪分析的主要方法,意见加工水平,知识库,可用的语言资源和检测比喻语言的主要技术。在此基础上,提出了一种基于心理语言学特征的情感分析和讽刺检测方法。最后,该建议在不同的领域得到验证。具体来说,情感分析方法应用于旅游和电影领域;讽刺检测方法应用于社交网络新闻领域。结果。因此,我们得到:o一种对情绪进行分类和检测讽刺的方法。这种方法允许将意见分为积极的、消极的、中立的、非常积极的和非常消极的,推文分为讽刺的和非讽刺的。或者用西班牙语预处理推文的过程。或者是旅游领域的语料库。该语料库包含1600个关于酒店、餐厅、博物馆等主题的意见,这些意见按各自的极性(积极、消极、中性、非常积极、非常消极)进行分类。或者一组讽刺和非讽刺的推文。该语料库由一组10000条标记为讽刺和非讽刺的推文组成,这些推文来自不同的Twitter账户。o一套心理语言学特征,用于对情绪进行分类和检测讽刺。结论。意见的自动分类需要语言学和自然语言处理发挥重要作用的努力。这些学科使人们能够更好地理解人类语言,对观点进行分类,并总结文本中表达的情感。另一方面,比喻语言是PLN中最困难的主题之一,因为与字面语言不同,作者利用各种语言人物,如隐喻、类比、歧义等,来投射更复杂的意义。这种类型的语言不仅对计算机很难理解,对人类也很难理解。本文描述了一种情绪分析的心理语言模式检测和讽刺自动检测的方法。心理语言学特征,结合自然语言处理和数据挖掘技术,被证明在情感和讽刺检测方面是有效的。此外,不同领域的方法验证证明了我们对意见和推文进行分类的方法的有效性。他的父亲是一名律师,母亲是一名律师。= =地理= =根据美国人口普查,这个县的面积为。此外,比喻语言是情感分析中需要考虑的一个重要方面,因为在观点中表达的双重含义可以改变观点的极端。= =地理= =根据美国人口普查,这个县的面积为。建立了四个具体目标:1)设计一种检测情感分析心理语言学模式的方法;2)设计一种检测讽刺文本分析的心理语言学模式的方法;3)不同背景下情感分析方法的验证,如旅游和电影领域;4)新闻领域讽刺自动检测方法的验证。采用的方法。所提出的方法是基于对现状的分析。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
CiteScore
5.40
自引率
12.50%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信