Large language models for knowledge graph extraction from tables in materials science

IF 6.2 Q1 CHEMISTRY, MULTIDISCIPLINARY

Digital discovery Pub Date : 2025-04-07 DOI:10.1039/D4DD00362D

Max Dreger, Kourosh Malek and Michael Eikerling

引用次数: 0

Abstract

Research in materials science increasingly harnesses machine learning (ML) models. These models are trained with experimental or theoretical data, the quality of their output hinges on the data's quantity and quality. Improving data quality and accessibility necessitates advanced data management solutions. Today, data are often stored in non-standardized table formats that lack interoperability, accessibility and reusability. To address this issue, we present a semi-automated data ingestion pipeline that transforms R&D tables into knowledge graphs. Utilizing large language models and rule-based feedback loops, our pipeline transforms tabular data into graph structures. The proposed process consists of entity recognition and relationship extraction. It facilitates better data interoperability and accessibility, by streamlining data integration from various sources. The pipeline is integrated into a platform harboring a graph database as well as semantic search capabilities.

查看原文本刊更多论文

材料科学中表格知识图谱提取的大型语言模型

材料科学研究越来越多地利用机器学习（ML）模型。这些模型是用实验或理论数据训练的，其输出的质量取决于数据的数量和质量。提高数据质量和可访问性需要先进的数据管理解决方案。目前，数据通常以非标准化的表格式存储，缺乏互操作性、可访问性和可重用性。为了解决这个问题，我们提出了一个半自动化的数据摄取管道，它将研发表转换为知识图。利用大型语言模型和基于规则的反馈循环，我们的管道将表格数据转换为图形结构。该过程包括实体识别和关系提取。它通过简化来自不同来源的数据集成，促进了更好的数据互操作性和可访问性。该管道集成到一个平台中，该平台拥有图形数据库和语义搜索功能。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Digital discovery

CiteScore

2.80

自引率

0.00%

发文量