АЛГОРИТМИ ОНОВЛЕННЯ ДАНИХ В СИСТЕМІ МАШИННОГО НАВЧАННЯ

Наталія Бойко, Роман Ковальчук
{"title":"АЛГОРИТМИ ОНОВЛЕННЯ ДАНИХ В СИСТЕМІ МАШИННОГО НАВЧАННЯ","authors":"Наталія Бойко, Роман Ковальчук","doi":"10.31891/csit-2023-1-1","DOIUrl":null,"url":null,"abstract":"У цій роботі було виконано аналіз методів для операціоналізації пошуку аномалій, виявлення дрифту даних та самого DataQC пайплайну як такого. Проаналізовані підходи до аналізу операціоналізації пайплайну та до операціоналізації виявлення дрифту даних. Виявлення аномалій допомагає нам оцінити чистоту і якість наших даних. Важливо, щоб у моделі не було аномальних викидів, оскільки вони заплутують модель. Також важливо мати послідовні дані без змін у розподілі ознак. Було запропоновано рішення з вибраними технологіями для операціоналізації DataQC пайплайну, визначено наступні кроки для подальшого дослідження. Запропоновано для побудови заданого DataQC пайплайну використати та обґрунтовати власне рішення для пошуку аномалій та виявлення дрифту даних через специфіку задачі, проблеми та відстуності готових рішень які б задовольняли наші вимоги. В роботі розглядаються етапи операціоналізація вищезгаданого пайплайну, який виконує етапи: фільтрування, пошуку аномалій, звітування, валідації, та порівняння нових даних з історичними, для існуючої у системі моделі машинного навчання. Описується складність задачі операціоналізації у реальному світі, яка полягає у постійному оновленні даних, необхідності їх опрацювання та подальшому застосуванні у системі машинного навчання. Також доводиться користь від пайплайну, який б автоматично опрацьовував нові дані. В роботі досліджується проблематика, яку слід розглядати як Time-Series проблему, то при формуванні інтерактивних звітів, перевірці даних на валідність, наявність та пошук викидів, аномалій. Це рішення дозволить нам візуалізувати всі кроки, які виконує конвеєр валідації даних, що дасть змогу іншим розробникам переглянути результат його роботи, не знаючи нюансів його реалізації та не витрачаючи зайвого часу. Також пропонована архітектура MLOps дозволяє відстежувати зміни трендів даних та гарантувати, що модель збереже свою прогностичну ефективність з часом.","PeriodicalId":353631,"journal":{"name":"Computer systems and information technologies","volume":"8 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-03-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Computer systems and information technologies","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.31891/csit-2023-1-1","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

У цій роботі було виконано аналіз методів для операціоналізації пошуку аномалій, виявлення дрифту даних та самого DataQC пайплайну як такого. Проаналізовані підходи до аналізу операціоналізації пайплайну та до операціоналізації виявлення дрифту даних. Виявлення аномалій допомагає нам оцінити чистоту і якість наших даних. Важливо, щоб у моделі не було аномальних викидів, оскільки вони заплутують модель. Також важливо мати послідовні дані без змін у розподілі ознак. Було запропоновано рішення з вибраними технологіями для операціоналізації DataQC пайплайну, визначено наступні кроки для подальшого дослідження. Запропоновано для побудови заданого DataQC пайплайну використати та обґрунтовати власне рішення для пошуку аномалій та виявлення дрифту даних через специфіку задачі, проблеми та відстуності готових рішень які б задовольняли наші вимоги. В роботі розглядаються етапи операціоналізація вищезгаданого пайплайну, який виконує етапи: фільтрування, пошуку аномалій, звітування, валідації, та порівняння нових даних з історичними, для існуючої у системі моделі машинного навчання. Описується складність задачі операціоналізації у реальному світі, яка полягає у постійному оновленні даних, необхідності їх опрацювання та подальшому застосуванні у системі машинного навчання. Також доводиться користь від пайплайну, який б автоматично опрацьовував нові дані. В роботі досліджується проблематика, яку слід розглядати як Time-Series проблему, то при формуванні інтерактивних звітів, перевірці даних на валідність, наявність та пошук викидів, аномалій. Це рішення дозволить нам візуалізувати всі кроки, які виконує конвеєр валідації даних, що дасть змогу іншим розробникам переглянути результат його роботи, не знаючи нюансів його реалізації та не витрачаючи зайвого часу. Також пропонована архітектура MLOps дозволяє відстежувати зміни трендів даних та гарантувати, що модель збереже свою прогностичну ефективність з часом.
本文分析了异常检测、数据漂移检测和 DataQC 管道本身的操作化方法。我们分析了分析管道可操作性和数据漂移检测可操作性的方法。异常检测有助于我们评估数据的纯度和质量。重要的是,模型中没有异常离群值,因为它们会混淆模型。同样重要的是,数据要保持一致,特征分布不发生变化。我们利用选定的技术提出了一个解决方案,用于操作 DataQC 管道,并确定了进一步研究的下一步骤。由于任务的特殊性、存在的问题以及缺乏满足我们要求的现成解决方案,我们建议使用我们自己的解决方案来发现异常和检测数据漂移,从而建立一个给定的 DataQC 管道。本文考虑了上述管道的运行阶段,该管道执行以下步骤:过滤、异常检测、报告、验证以及将新数据与系统中现有机器学习模型的历史数据进行比较。作者描述了现实世界中操作任务的复杂性,包括数据的不断更新、处理数据的需要以及在机器学习系统中进一步使用数据。文章还展示了自动处理新数据的管道的好处。本文探讨了应将其视为时间序列问题的问题,即在生成交互式报告、检查数据有效性、检测和搜索异常值和异常现象时。该解决方案将使我们能够可视化数据验证管道所执行的所有步骤,这将使其他开发人员能够在不了解其实现的细微差别的情况下审查其工作结果,而不会浪费额外的时间。建议的 MLOps 架构还允许您跟踪数据趋势的变化,确保模型随着时间的推移保持其预测性能。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信