研究分析文本数据语气的方法

Вісник Херсонського національного технічного університету Pub Date : 2024-05-01 DOI:10.35546/kntu2078-4481.2024.1.31

Н. А. Куликовська, Артур Тіменко, В. Є. Трохимчук, М. Б. Ільяшенко

{"title":"研究分析文本数据语气的方法","authors":"Н. А. Куликовська, Артур Тіменко, В. Є. Трохимчук, М. Б. Ільяшенко","doi":"10.35546/kntu2078-4481.2024.1.31","DOIUrl":null,"url":null,"abstract":"Актуальність теми дослідження визначається лавиноподібним зростанням обсягів неструктурованих текстових даних в Інтернеті та потребою в ефективних методах аналізу тональності. Мета роботи – систематично вивчити сучасний стан методології аналізу тональності, порівняти провідні підходи і окреслити подальші перспективи. У статті детально проаналізовано популярні бібліотеки Python для обробки природної мови – NLTK, spaCy, TextBlob, Gensim. Порівняння проведено за критеріями обчислювальної ефективності, зручності використання, гнучкості екстракції ознак та можливостей кастомізації. Методологічне ядро дослідження становить експериментальне порівняння NLTK і TextBlob для класифікації тональності україномовних текстів. Оцінки можуть варіюватися в залежності від конкретного сценарію використання та налаштувань. NLTK, де він може бути більш точним, коли його правильно налаштовано, але вимагає більше зусиль у налаштуванні. TextBlob, навпаки, є більш простим для використання, але може бути менш точним для спеціалізованих завдань. Результати засвідчили переваги TextBlob у швидкодії та NLTK у точності. Аналіз тональності має величезний потенціал для вдосконалення аналітичних можливостей в багатьох сферах – від оптимізації бізнес-процесів до протидії поширенню фейкових новин. Подальші дослідження повинні фокусуватися на розробці спеціалізованих рішень під конкретні прикладні задачі.Визначено перспективи вдосконалення етичних принципів аналізу тексту, урахування лінгвістичного та культурного контексту, а також інтеграції функціоналу аналізу тональності в системи підтримки прийняття рішень.","PeriodicalId":518826,"journal":{"name":"Вісник Херсонського національного технічного університету","volume":"30 4","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2024-05-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"ДОСЛІДЖЕННЯ МЕТОДІВ АНАЛІЗУ ТОНАЛЬНОСТІ ТЕКСТОВИХ ДАНИХ\",\"authors\":\"Н. А. Куликовська, Артур Тіменко, В. Є. Трохимчук, М. Б. Ільяшенко\",\"doi\":\"10.35546/kntu2078-4481.2024.1.31\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Актуальність теми дослідження визначається лавиноподібним зростанням обсягів неструктурованих текстових даних в Інтернеті та потребою в ефективних методах аналізу тональності. Мета роботи – систематично вивчити сучасний стан методології аналізу тональності, порівняти провідні підходи і окреслити подальші перспективи. У статті детально проаналізовано популярні бібліотеки Python для обробки природної мови – NLTK, spaCy, TextBlob, Gensim. Порівняння проведено за критеріями обчислювальної ефективності, зручності використання, гнучкості екстракції ознак та можливостей кастомізації. Методологічне ядро дослідження становить експериментальне порівняння NLTK і TextBlob для класифікації тональності україномовних текстів. Оцінки можуть варіюватися в залежності від конкретного сценарію використання та налаштувань. NLTK, де він може бути більш точним, коли його правильно налаштовано, але вимагає більше зусиль у налаштуванні. TextBlob, навпаки, є більш простим для використання, але може бути менш точним для спеціалізованих завдань. Результати засвідчили переваги TextBlob у швидкодії та NLTK у точності. Аналіз тональності має величезний потенціал для вдосконалення аналітичних можливостей в багатьох сферах – від оптимізації бізнес-процесів до протидії поширенню фейкових новин. Подальші дослідження повинні фокусуватися на розробці спеціалізованих рішень під конкретні прикладні задачі.Визначено перспективи вдосконалення етичних принципів аналізу тексту, урахування лінгвістичного та культурного контексту, а також інтеграції функціоналу аналізу тональності в системи підтримки прийняття рішень.\",\"PeriodicalId\":518826,\"journal\":{\"name\":\"Вісник Херсонського національного технічного університету\",\"volume\":\"30 4\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2024-05-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Вісник Херсонського національного технічного університету\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.35546/kntu2078-4481.2024.1.31\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Вісник Херсонського національного технічного університету","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35546/kntu2078-4481.2024.1.31","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

摘要

互联网上非结构化文本数据的雪崩式增长以及对有效语气分析方法的需求决定了本研究课题的相关性。本研究的目的是系统地考察语气分析方法的技术现状，比较领先的方法，并概述进一步的发展前景。文章详细分析了流行的 Python 自然语言处理库 - NLTK、spaCy、TextBlob 和 Gensim。比较的标准是计算效率、易用性、特征提取的灵活性和定制的可能性。研究方法的核心是通过实验比较 NLTK 和 TextBlob 对乌克兰语文本的语气进行分类。根据具体的使用场景和设置，结果可能会有所不同。NLTK 在正确配置的情况下可能更准确，但需要更多的设置工作。另一方面，TextBlob 更容易使用，但对于特殊任务来说可能不够准确。结果表明，TextBlob 在速度上更胜一筹，而 NLTK 则在准确性上更胜一筹。音调分析在提高许多领域的分析能力方面有着巨大的潜力，从优化业务流程到打击假新闻的传播，不一而足。进一步的研究应集中在为特定应用任务开发专业解决方案上。我们确定了改进文本分析道德原则、考虑语言和文化背景以及将语气分析功能集成到决策支持系统中的前景。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

ДОСЛІДЖЕННЯ МЕТОДІВ АНАЛІЗУ ТОНАЛЬНОСТІ ТЕКСТОВИХ ДАНИХ

Актуальність теми дослідження визначається лавиноподібним зростанням обсягів неструктурованих текстових даних в Інтернеті та потребою в ефективних методах аналізу тональності. Мета роботи – систематично вивчити сучасний стан методології аналізу тональності, порівняти провідні підходи і окреслити подальші перспективи. У статті детально проаналізовано популярні бібліотеки Python для обробки природної мови – NLTK, spaCy, TextBlob, Gensim. Порівняння проведено за критеріями обчислювальної ефективності, зручності використання, гнучкості екстракції ознак та можливостей кастомізації. Методологічне ядро дослідження становить експериментальне порівняння NLTK і TextBlob для класифікації тональності україномовних текстів. Оцінки можуть варіюватися в залежності від конкретного сценарію використання та налаштувань. NLTK, де він може бути більш точним, коли його правильно налаштовано, але вимагає більше зусиль у налаштуванні. TextBlob, навпаки, є більш простим для використання, але може бути менш точним для спеціалізованих завдань. Результати засвідчили переваги TextBlob у швидкодії та NLTK у точності. Аналіз тональності має величезний потенціал для вдосконалення аналітичних можливостей в багатьох сферах – від оптимізації бізнес-процесів до протидії поширенню фейкових новин. Подальші дослідження повинні фокусуватися на розробці спеціалізованих рішень під конкретні прикладні задачі.Визначено перспективи вдосконалення етичних принципів аналізу тексту, урахування лінгвістичного та культурного контексту, а також інтеграції функціоналу аналізу тональності в системи підтримки прийняття рішень.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Вісник Херсонського національного технічного університету

自引率

0.00%

发文量