Review of multimodal machine learning approaches in healthcare

IF 14.7 1区计算机科学 Q1 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE

Information Fusion Pub Date : 2024-09-14 DOI:10.1016/j.inffus.2024.102690

Felix Krones , Umar Marikkar , Guy Parsons , Adam Szmul , Adam Mahdi

{"title":"Review of multimodal machine learning approaches in healthcare","authors":"Felix Krones , Umar Marikkar , Guy Parsons , Adam Szmul , Adam Mahdi","doi":"10.1016/j.inffus.2024.102690","DOIUrl":null,"url":null,"abstract":"<div><p>Machine learning methods in healthcare have traditionally focused on using data from a single modality, limiting their ability to effectively replicate the clinical practice of integrating multiple sources of information for improved decision making. Clinicians typically rely on a variety of data sources including patients’ demographic information, laboratory data, vital signs and various imaging data modalities to make informed decisions and contextualise their findings. Recent advances in machine learning have facilitated the more efficient incorporation of multimodal data, resulting in applications that better represent the clinician’s approach. Here, we provide an overview of multimodal machine learning approaches in healthcare, encompassing various data modalities commonly used in clinical diagnoses, such as imaging, text, time series and tabular data. We discuss key stages of model development, including pre-training, fine-tuning and evaluation. Additionally, we explore common data fusion approaches used in modelling, highlighting their advantages and performance challenges. An overview is provided of 17 multimodal clinical datasets with detailed description of the specific data modalities used in each dataset. Over 50 studies have been reviewed, with a predominant focus on the integration of imaging and tabular data. While multimodal techniques have shown potential in improving predictive accuracy across many healthcare areas, our review highlights that the effectiveness of a method is contingent upon the specific data and task at hand.</p></div>","PeriodicalId":50367,"journal":{"name":"Information Fusion","volume":"114 ","pages":"Article 102690"},"PeriodicalIF":14.7000,"publicationDate":"2024-09-14","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://www.sciencedirect.com/science/article/pii/S1566253524004688/pdfft?md5=c13f0b2819a78d412d45575c042d7e61&pid=1-s2.0-S1566253524004688-main.pdf","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Information Fusion","FirstCategoryId":"94","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S1566253524004688","RegionNum":1,"RegionCategory":"计算机科学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q1","JCRName":"COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE","Score":null,"Total":0}

引用次数: 0

Abstract

Machine learning methods in healthcare have traditionally focused on using data from a single modality, limiting their ability to effectively replicate the clinical practice of integrating multiple sources of information for improved decision making. Clinicians typically rely on a variety of data sources including patients’ demographic information, laboratory data, vital signs and various imaging data modalities to make informed decisions and contextualise their findings. Recent advances in machine learning have facilitated the more efficient incorporation of multimodal data, resulting in applications that better represent the clinician’s approach. Here, we provide an overview of multimodal machine learning approaches in healthcare, encompassing various data modalities commonly used in clinical diagnoses, such as imaging, text, time series and tabular data. We discuss key stages of model development, including pre-training, fine-tuning and evaluation. Additionally, we explore common data fusion approaches used in modelling, highlighting their advantages and performance challenges. An overview is provided of 17 multimodal clinical datasets with detailed description of the specific data modalities used in each dataset. Over 50 studies have been reviewed, with a predominant focus on the integration of imaging and tabular data. While multimodal techniques have shown potential in improving predictive accuracy across many healthcare areas, our review highlights that the effectiveness of a method is contingent upon the specific data and task at hand.

查看原文本刊更多论文

医疗保健领域多模态机器学习方法综述

医疗保健领域的机器学习方法历来侧重于使用来自单一模式的数据，这限制了它们有效复制整合多种信息源以改进决策的临床实践的能力。临床医生通常依赖各种数据源，包括患者的人口统计学信息、实验室数据、生命体征和各种成像数据模式，以做出明智的决策并将其结果与上下文联系起来。机器学习的最新进展有助于更有效地整合多模态数据，从而使应用能更好地代表临床医生的方法。在此，我们将概述医疗保健领域的多模态机器学习方法，包括临床诊断中常用的各种数据模式，如成像、文本、时间序列和表格数据。我们讨论了模型开发的关键阶段，包括预训练、微调和评估。此外，我们还探讨了建模中常用的数据融合方法，强调了它们的优势和性能挑战。本文概述了 17 个多模态临床数据集，并详细描述了每个数据集中使用的特定数据模式。研究回顾了 50 多项研究，主要侧重于成像和表格数据的整合。虽然多模态技术在提高许多医疗保健领域的预测准确性方面已显示出潜力，但我们的综述强调，一种方法的有效性取决于手头的具体数据和任务。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Information Fusion 工程技术-计算机：理论方法

CiteScore

33.20

自引率

4.30%

发文量

161

审稿时长

7.9 months

期刊介绍： Information Fusion serves as a central platform for showcasing advancements in multi-sensor, multi-source, multi-process information fusion, fostering collaboration among diverse disciplines driving its progress. It is the leading outlet for sharing research and development in this field, focusing on architectures, algorithms, and applications. Papers dealing with fundamental theoretical analyses as well as those demonstrating their application to real-world problems will be welcome.