Принципи побудови хмар тегів даних

Automation Technological and Business-Processes Pub Date : 2020-03-30 DOI:10.15673/atbp.v12i1.1699

К. М. Хараш, О. В. Ольшевська, Ж. А. Титуренко

{"title":"Принципи побудови хмар тегів даних","authors":"К. М. Хараш, О. В. Ольшевська, Ж. А. Титуренко","doi":"10.15673/atbp.v12i1.1699","DOIUrl":null,"url":null,"abstract":"Розглядаються механізми візуалізації для побудови термінологічних хмар. На прикладі JSON, HTML, CSV, XLSX, XML, TXT наведений перелік типів файлів та ресурсів. Проаналізовано можливості добування та збереження вхідних даних. Проведено дослідження аналогічних систем, на основі якого було обрано два оптимальні типи файлів, а саме CSV та TXT. Виявлено підхід формування списку ключових слів для наукових публікацій або виокремлення провідної тематики різних текстів. Встановлено, що у разі необхідністі обробки великих текстів спільної спрямованості, якими наприклад можуть бути літературні твори, наукові статті, судові вироки тощо, достатнім буде використання малих веб-додатків для побудови тегових хмар. Тегові хмари на основі алгоритму k-середніх здатні досить ефективно виявити ключові поняття, найбільш уживані слова та провідні концепції. При порівнянні між собою форматів CSV та TXT, було підтверджено, що швидкість обробки залежить скоріше від об’єму вхідної інформації, ніж від структури файлу. Звідси, можна стверджувати, що використання одного або іншого формату зумовлено вибором користувача. Проведено аналіз з якого відзначено, що формат CSV потребує верхнього рядка, в якому вказують атрибути. Для більшої коректності подальшого аналізу, атрибути слід вказати і формувати кожний наступний рядок даних строго по черзі. Така незначна особливість структури допомагає досліднику орієнтуватися серед набору текстової інформації, а при подальшій обробці перший рядок можна не враховувати. На відміну від попереднього формату, формат TXT не потребує формування першого рядка атрибутів. Це ускладнює візуальне сприйняття наявної інформації. Не рекомендовано вводити атрибути самостійно, в подальшому при обробці це буде впливати на коректність результатів кластеризації в негативний бік.","PeriodicalId":408761,"journal":{"name":"Automation Technological and Business-Processes","volume":"28 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2020-03-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Automation Technological and Business-Processes","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.15673/atbp.v12i1.1699","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

Розглядаються механізми візуалізації для побудови термінологічних хмар. На прикладі JSON, HTML, CSV, XLSX, XML, TXT наведений перелік типів файлів та ресурсів. Проаналізовано можливості добування та збереження вхідних даних. Проведено дослідження аналогічних систем, на основі якого було обрано два оптимальні типи файлів, а саме CSV та TXT. Виявлено підхід формування списку ключових слів для наукових публікацій або виокремлення провідної тематики різних текстів. Встановлено, що у разі необхідністі обробки великих текстів спільної спрямованості, якими наприклад можуть бути літературні твори, наукові статті, судові вироки тощо, достатнім буде використання малих веб-додатків для побудови тегових хмар. Тегові хмари на основі алгоритму k-середніх здатні досить ефективно виявити ключові поняття, найбільш уживані слова та провідні концепції. При порівнянні між собою форматів CSV та TXT, було підтверджено, що швидкість обробки залежить скоріше від об’єму вхідної інформації, ніж від структури файлу. Звідси, можна стверджувати, що використання одного або іншого формату зумовлено вибором користувача. Проведено аналіз з якого відзначено, що формат CSV потребує верхнього рядка, в якому вказують атрибути. Для більшої коректності подальшого аналізу, атрибути слід вказати і формувати кожний наступний рядок даних строго по черзі. Така незначна особливість структури допомагає досліднику орієнтуватися серед набору текстової інформації, а при подальшій обробці перший рядок можна не враховувати. На відміну від попереднього формату, формат TXT не потребує формування першого рядка атрибутів. Це ускладнює візуальне сприйняття наявної інформації. Не рекомендовано вводити атрибути самостійно, в подальшому при обробці це буде впливати на коректність результатів кластеризації в негативний бік.

查看原文本刊更多论文

作者讨论了构建术语云的可视化机制。以 JSON、HTML、CSV、XLSX、XML 和 TXT 为例，列出了文件类型和资源。分析了提取和存储输入数据的可能性。对类似系统进行了研究，在此基础上选择了两种最佳文件类型，即 CSV 和 TXT。确定了生成科学出版物关键词列表或突出各种文本主要主题的方法。现已确定，如果需要处理文学作品、科学文章、法院判决书等具有共同重点的大型文本，使用小型网络应用程序来构建标签云就足够了。基于 K-means 算法的标签云能有效识别关键概念、最常用词和主导概念。在比较 CSV 和 TXT 格式时，可以确认处理速度取决于输入信息量而不是文件结构。因此，可以说使用其中一种格式还是另一种格式取决于用户的选择。分析表明，CSV 格式需要顶行来表示属性。为便于进一步分析，应指定属性，并严格依次形成随后的每一行数据。结构上的这一细微特征有助于研究人员浏览文本信息集，在进一步处理过程中可以忽略第一行。与前一种格式不同，TXT 格式不要求形成第一行属性。这使得对可用信息的视觉感知变得复杂。不建议自行输入属性，因为这会对进一步处理过程中聚类结果的正确性产生负面影响。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Automation Technological and Business-Processes

自引率

0.00%

发文量