ДІАГНОСТИЧНІ АЛГОРИТМИ ВИЗНАЧЕННЯ ГЕНЕТИЧНИХ МУТАЦІЙ РАКУ ЗА ДОПОМОГОЮ АНАЛІЗУ МЕДИЧНИХ ТЕКСТІВ

Біомедична інженерія і технологія Pub Date : 2022-12-30 DOI:10.20535/2617-8974.2022.8.271038

Л.О. Левчик, В. О. Бабенко, Катерина Сергіївна Бовсуновська, В.А. Павлов, Євген Настенко

{"title":"ДІАГНОСТИЧНІ АЛГОРИТМИ ВИЗНАЧЕННЯ ГЕНЕТИЧНИХ МУТАЦІЙ РАКУ ЗА ДОПОМОГОЮ АНАЛІЗУ МЕДИЧНИХ ТЕКСТІВ","authors":"Л.О. Левчик, В. О. Бабенко, Катерина Сергіївна Бовсуновська, В.А. Павлов, Євген Настенко","doi":"10.20535/2617-8974.2022.8.271038","DOIUrl":null,"url":null,"abstract":"Сучасний стан аналітичних інструментів діагностики, до яких відноситься і генетичне тестування, дозволяють розраховувати, що процес діагностування онкологічних захворювань може бути автоматизованим. Однак, об’єм ручної роботи, необхідної для діагностики ракових пухлин, залишається значною перешкодою для прогресу в даній області. Процес секвенування пухлини здатний виявити тисячі генетичних мутацій, але задача полягає в тому, щоб відрізнити ті мутації, які сприяють зростанню рака (драйвери), від нейтральних мутацій (пасажирів). Ця задача потребує від клінічного патолога ручного аналізу та класифікації кожної мутації на основі інформації, отриманої з клінічної літератури. Використання комп’ютеризованих методів аналізу медичних текстів здатне автоматизувати даний етап діагностики ракових пухлин. Мета даної роботи полягала в оцінці ефективності використання методів обробки природної мови у поєднанні з машинним навчанням для автоматизованого визначення типів генетичних мутацій раку з медичних текстових даних. Наявна для використання база медичних текстових даних, що містить 3321 спостереження, і анотована по 9 типам генетичних мутацій раку провідними дослідниками та онкологами центру Меморіалу Слоуна Кеттерінга (Нью-Йорк, США). Дані були надані в рамках конкурсу по машинному навчанню спільнотою фахівців з Data Science - Kaggle. Для розв’язання багатокласової задачі класифікації використані моделі машинного навчання: мультиноміальний наївний Байєс, мультиноміальна логістична регресія, випадковий ліс, метод групового урахування аргументів, багатошаровий перцептрон, та рекурентна нейронна мережа з довгою короткостроковою пам’яттю. Модель багатошарового перцептрона виявилась найбільш ефективною для визначення типу генетичної мутації, продемонстрував точність передбачення 65.1% на тестовій вибірці, що склала 25% від загального набору даних. Друга по точності модель (випадковий ліс) досягла точність у 64.9%. Одержані результати перевершили результати учасників конкурсу Kaggle, де найвища точність класифікації (64.7%) була досягнута за допомогою лінійної моделі, заснованій на методі опорних векторів.Поєднання методів обробки природної мови та машинного навчання показує великий потенціал для застосування в медичній галузі, зокрема, у визначенні типів генетичних мутацій раку на основі текстових даних. Це надає можливість для автоматизації дій медичного персоналу в процесі діагностики. Для досягнення більш ефективних результатів планується проведення подальших досліджень.","PeriodicalId":386518,"journal":{"name":"Біомедична інженерія і технологія","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2022-12-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Біомедична інженерія і технологія","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.20535/2617-8974.2022.8.271038","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

Сучасний стан аналітичних інструментів діагностики, до яких відноситься і генетичне тестування, дозволяють розраховувати, що процес діагностування онкологічних захворювань може бути автоматизованим. Однак, об’єм ручної роботи, необхідної для діагностики ракових пухлин, залишається значною перешкодою для прогресу в даній області. Процес секвенування пухлини здатний виявити тисячі генетичних мутацій, але задача полягає в тому, щоб відрізнити ті мутації, які сприяють зростанню рака (драйвери), від нейтральних мутацій (пасажирів). Ця задача потребує від клінічного патолога ручного аналізу та класифікації кожної мутації на основі інформації, отриманої з клінічної літератури. Використання комп’ютеризованих методів аналізу медичних текстів здатне автоматизувати даний етап діагностики ракових пухлин. Мета даної роботи полягала в оцінці ефективності використання методів обробки природної мови у поєднанні з машинним навчанням для автоматизованого визначення типів генетичних мутацій раку з медичних текстових даних. Наявна для використання база медичних текстових даних, що містить 3321 спостереження, і анотована по 9 типам генетичних мутацій раку провідними дослідниками та онкологами центру Меморіалу Слоуна Кеттерінга (Нью-Йорк, США). Дані були надані в рамках конкурсу по машинному навчанню спільнотою фахівців з Data Science - Kaggle. Для розв’язання багатокласової задачі класифікації використані моделі машинного навчання: мультиноміальний наївний Байєс, мультиноміальна логістична регресія, випадковий ліс, метод групового урахування аргументів, багатошаровий перцептрон, та рекурентна нейронна мережа з довгою короткостроковою пам’яттю. Модель багатошарового перцептрона виявилась найбільш ефективною для визначення типу генетичної мутації, продемонстрував точність передбачення 65.1% на тестовій вибірці, що склала 25% від загального набору даних. Друга по точності модель (випадковий ліс) досягла точність у 64.9%. Одержані результати перевершили результати учасників конкурсу Kaggle, де найвища точність класифікації (64.7%) була досягнута за допомогою лінійної моделі, заснованій на методі опорних векторів.Поєднання методів обробки природної мови та машинного навчання показує великий потенціал для застосування в медичній галузі, зокрема, у визначенні типів генетичних мутацій раку на основі текстових даних. Це надає можливість для автоматизації дій медичного персоналу в процесі діагностики. Для досягнення більш ефективних результатів планується проведення подальших досліджень.

查看原文本刊更多论文

包括基因检测在内的分析诊断工具的现状表明，癌症诊断过程可以实现自动化。然而，诊断癌症肿瘤所需的大量人工工作仍然是这一领域取得进展的重大障碍。肿瘤测序过程可以识别成千上万的基因突变，但难点在于如何区分促进癌症生长的突变（驱动基因）和中性突变（客体基因）。这项工作需要临床病理学家根据临床文献中的信息对每种突变进行人工分析和分类。使用计算机化的医学文本分析方法可以使这一阶段的癌症诊断自动化。本研究的目的是评估使用自然语言处理方法结合机器学习从医学文本数据中自动识别癌症基因突变类型的有效性。研究使用的医学文本数据库包含 3321 个观察结果，并由斯隆-凯特琳纪念癌症中心（美国纽约）的顶尖研究人员和肿瘤学家对 9 种癌症基因突变类型进行了注释。这些数据是数据科学专家社区Kaggle举办的机器学习竞赛的一部分。用于解决多类分类问题的机器学习模型包括多项式天真贝叶斯、多项式逻辑回归、随机森林、分组论证法、多层感知器和具有长短期记忆的递归神经网络。事实证明，多层感知器模型在确定基因突变类型方面最为有效，它对测试样本（占数据集总数的 25%）的预测准确率高达 65.1%。准确率第二高的模型（随机森林）达到了 64.9%。这些结果优于 Kaggle 竞赛参赛者的成绩，在 Kaggle 竞赛中，使用基于支持向量法的线性模型获得了最高的分类准确率（64.7%）。自然语言处理与机器学习方法的结合在医疗领域显示出巨大的应用潜力，特别是在根据文本数据确定癌症基因突变类型方面。这为医务人员在诊断过程中的自动化操作提供了机会。为取得更有效的成果，计划开展进一步研究。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Біомедична інженерія і технологія

自引率

0.00%

发文量