Representación estructurada de compuestos orgánicos basada en autoencoders

Ignacio Pérez Correa, Pablo D. Giunta, J. A. Francesconi, Fernando J. Mariño
{"title":"Representación estructurada de compuestos orgánicos basada en autoencoders","authors":"Ignacio Pérez Correa, Pablo D. Giunta, J. A. Francesconi, Fernando J. Mariño","doi":"10.1109/ARGENCON55245.2022.9940035","DOIUrl":null,"url":null,"abstract":"En este trabajo proponemos la utilización de una red de tipo autoencoder para procesar compuestos orgánicos codificados en formato SMILES buscando evocar representaciones significativas en el espacio latente y utilizar estas representaciones para generar modelos de predicción de propiedades. Fueron utilizados 400.000 compuestos codificados mediante SMILES para el entrenamiento del autoencoder, dónde se encontró que una dimensión latente de 25 elementos logra reconstruir los datos adecuadamente. A partir de esto, se desarrollaron modelos de predicción para las 8 propiedades termodinámicas de interés (presión crítica, temperatura crítica, volumen crítico, temperatura de fusión, temperatura de ebullición y las entalpías de vaporización, fusión y formación). Para la regresión se utilizaron 1079 sustancias cuya capacidad de predicción también fue contrastada con el modelo de Joback y Reid, referencia en predicción de propiedades. El modelo propuesto presenta errores del 1% al 6% para las distintas propiedades (exceptuando el punto de fusión) que mejoran notablemente respecto del modelo de referencia que posee valores en el entorno de (3-9) % para las mismas propiedades. Respecto del punto de fusión, se observa que ambos modelos tienen dificultades en la estimación y que podría sugerir que se requieren otros indicadores para representar este fenómeno.","PeriodicalId":318846,"journal":{"name":"2022 IEEE Biennial Congress of Argentina (ARGENCON)","volume":"48 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-09-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"2022 IEEE Biennial Congress of Argentina (ARGENCON)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.1109/ARGENCON55245.2022.9940035","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

En este trabajo proponemos la utilización de una red de tipo autoencoder para procesar compuestos orgánicos codificados en formato SMILES buscando evocar representaciones significativas en el espacio latente y utilizar estas representaciones para generar modelos de predicción de propiedades. Fueron utilizados 400.000 compuestos codificados mediante SMILES para el entrenamiento del autoencoder, dónde se encontró que una dimensión latente de 25 elementos logra reconstruir los datos adecuadamente. A partir de esto, se desarrollaron modelos de predicción para las 8 propiedades termodinámicas de interés (presión crítica, temperatura crítica, volumen crítico, temperatura de fusión, temperatura de ebullición y las entalpías de vaporización, fusión y formación). Para la regresión se utilizaron 1079 sustancias cuya capacidad de predicción también fue contrastada con el modelo de Joback y Reid, referencia en predicción de propiedades. El modelo propuesto presenta errores del 1% al 6% para las distintas propiedades (exceptuando el punto de fusión) que mejoran notablemente respecto del modelo de referencia que posee valores en el entorno de (3-9) % para las mismas propiedades. Respecto del punto de fusión, se observa que ambos modelos tienen dificultades en la estimación y que podría sugerir que se requieren otros indicadores para representar este fenómeno.
基于自动编码器的有机化合物的结构化表示
本文提出了一种基于自编码网络的方法来处理SMILES格式编码的有机化合物,寻求在潜在空间中产生有意义的表示,并利用这些表示生成属性预测模型。在自动编码器训练中使用了40万个SMILES编码的化合物,发现25个元素的潜在维度能够正确地重建数据。由此,开发了8种感兴趣的热力学性质(临界压力、临界温度、临界体积、熔化温度、沸腾温度和蒸发、熔化和形成焓)的预测模型。我们使用了1079种物质的回归,这些物质的预测能力也与Joback和Reid模型进行了比较,这是属性预测的参考。所提出的模型对不同性质(熔点以外)的误差在1%到6%之间,与参考模型相比有显著改善,参考模型的值在(3-9)%左右。关于熔点,两种模型在估计方面都有困难,这可能表明需要其他指标来表示这一现象。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信