Combining Rule-based NLP-lite with Rapid Iterative Chart Adjudication for Creation of a Large, Accurately Curated Cohort from EHR data: A Case Study in the Context of a Clinical Trial Emulation.

AMIA ... Annual Symposium proceedings. AMIA Symposium Pub Date : 2025-05-22 eCollection Date: 2024-01-01

Pradeep Mutalik, Kei-Hoi Cheung, Jennifer Green, Melissa Buelt-Gebhardt, Karen F Anderson, Vales Jeanpaul, Linda McDonald, Michael Wininger, Yuli Li, Nallakkandi Rajeevan, Peter M Jessel, Hans Moore, Selçuk Adabag, Merritt H Raitt, Mihaela Aslan

{"title":"Combining Rule-based NLP-lite with Rapid Iterative Chart Adjudication for Creation of a Large, Accurately Curated Cohort from EHR data: A Case Study in the Context of a Clinical Trial Emulation.","authors":"Pradeep Mutalik, Kei-Hoi Cheung, Jennifer Green, Melissa Buelt-Gebhardt, Karen F Anderson, Vales Jeanpaul, Linda McDonald, Michael Wininger, Yuli Li, Nallakkandi Rajeevan, Peter M Jessel, Hans Moore, Selçuk Adabag, Merritt H Raitt, Mihaela Aslan","doi":"","DOIUrl":null,"url":null,"abstract":"<p><p>The aim of this work was to create a gold-standard curated cohort of 10,000+ cases from the Veteran Affairs (VA) corporate data warehouse (CDW) for virtual emulation of a randomized clinical trial (CSP#592). The trial had six inclusion/exclusion criteria lacking adequate structured data. We therefore used a hybrid computer/human approach to extract information from clinical notes. Rule-based NLP output was iteratively adjudicated by a panel of trained non-clinician content experts and non-experts using an easy-to-use spreadsheet-based rapid adjudication display. This group-adjudication process iteratively sharpened both the computer algorithm and clinical decision criteria, while simultaneously training the non-experts. The cohort was successfully created with each inclusion/exclusion decision backed by a source document. Less than 0.5% of cases required referral to specialist clinicians. It is likely that such curated datasets capturing specialist reasoning and using a process-supervised approach will acquire greater importance as training tools for future clinical AI applications.</p>","PeriodicalId":72180,"journal":{"name":"AMIA ... Annual Symposium proceedings. AMIA Symposium","volume":"2024 ","pages":"847-856"},"PeriodicalIF":0.0000,"publicationDate":"2025-05-22","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://www.ncbi.nlm.nih.gov/pmc/articles/PMC12099393/pdf/","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"AMIA ... Annual Symposium proceedings. AMIA Symposium","FirstCategoryId":"1085","ListUrlMain":"","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"2024/1/1 0:00:00","PubModel":"eCollection","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

The aim of this work was to create a gold-standard curated cohort of 10,000+ cases from the Veteran Affairs (VA) corporate data warehouse (CDW) for virtual emulation of a randomized clinical trial (CSP#592). The trial had six inclusion/exclusion criteria lacking adequate structured data. We therefore used a hybrid computer/human approach to extract information from clinical notes. Rule-based NLP output was iteratively adjudicated by a panel of trained non-clinician content experts and non-experts using an easy-to-use spreadsheet-based rapid adjudication display. This group-adjudication process iteratively sharpened both the computer algorithm and clinical decision criteria, while simultaneously training the non-experts. The cohort was successfully created with each inclusion/exclusion decision backed by a source document. Less than 0.5% of cases required referral to specialist clinicians. It is likely that such curated datasets capturing specialist reasoning and using a process-supervised approach will acquire greater importance as training tools for future clinical AI applications.

本刊更多论文

将基于规则的NLP-lite与快速迭代图表裁决相结合，从电子病历数据中创建一个大型，准确策划的队列：临床试验模拟背景下的案例研究。

这项工作的目的是从退伍军人事务部（VA）公司数据仓库（CDW）中创建一个由10,000多个病例组成的黄金标准策划队列，用于虚拟模拟随机临床试验（CSP#592）。该试验有六个纳入/排除标准，缺乏足够的结构化数据。因此，我们使用混合计算机/人的方法从临床记录中提取信息。基于规则的NLP输出由训练有素的非临床医生内容专家和非专家组成的小组使用易于使用的基于电子表格的快速裁决显示进行迭代裁决。这种群体裁决过程迭代地提高了计算机算法和临床决策标准，同时训练了非专家。队列已成功创建，每个包含/排除决策都由源文档支持。不到0.5%的病例需要转诊给专科临床医生。作为未来临床人工智能应用的培训工具，这种收集专家推理并使用过程监督方法的精心整理的数据集很可能会变得更重要。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

AMIA ... Annual Symposium proceedings. AMIA Symposium

自引率

0.00%

发文量