{"title":"Prediction of Mutagenicity of Organic Molecules by Ensemble Learning","authors":"Masamoto Arakawa, K. Funatsu","doi":"10.2751/JCAC.12.26","DOIUrl":null,"url":null,"abstract":"本研究では、有機化合物の変異原性を予測するためのクラス分類モデルの構築を行った。変異原性を評価するための標準的な方法である復帰突然変異試験を対象とし、その評価結果を高い精度で予測することの出来るモデルの構築を目指した。クラス分類モデル構築のための手法として、複数のSupport Vector Machine(SVM)モデルをサブモデルとして構築し、それらを組み合わせることで予測を行うアンサンブル手法を提案する。データセットから一部の化合物および構造記述子をランダムに抜き出し、SVMを用いてサブモデルを構築する。このとき、SVMのパラメータについても乱数によって無作為に決定する。この操作を複数回繰り返した後、精度の高いサブモデルの予測結果を統合することで変異原性の予測を行う。Hansenら[K. Hansen, et al., J. Chem. Inf. Model., 49, 2077-2081] が収集・整理した、6,512化合物からなる復帰突然変異試験のデータセットを用い、モデルの構築および評価を行った。その結果、テストセットに対する予測正解率79.6%のモデルを構築することに成功した。これは、通常のSVMによって得られるモデルと比較し高い精度を示すものであった。また、The Area Under ROC-Curve(AUC)は0.866であり、Hansenらの結果と同等以上の結果であることが確認された。これらのことから、変異原性の予測にあたってはSVMおよびアンサンブルモデルを用いることが有力であるとの結論が得られた。","PeriodicalId":41457,"journal":{"name":"Journal of Computer Aided Chemistry","volume":"12 1","pages":"26-36"},"PeriodicalIF":0.0000,"publicationDate":"2011-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of Computer Aided Chemistry","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.2751/JCAC.12.26","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
本研究では、有機化合物の変異原性を予測するためのクラス分類モデルの構築を行った。変異原性を評価するための標準的な方法である復帰突然変異試験を対象とし、その評価結果を高い精度で予測することの出来るモデルの構築を目指した。クラス分類モデル構築のための手法として、複数のSupport Vector Machine(SVM)モデルをサブモデルとして構築し、それらを組み合わせることで予測を行うアンサンブル手法を提案する。データセットから一部の化合物および構造記述子をランダムに抜き出し、SVMを用いてサブモデルを構築する。このとき、SVMのパラメータについても乱数によって無作為に決定する。この操作を複数回繰り返した後、精度の高いサブモデルの予測結果を統合することで変異原性の予測を行う。Hansenら[K. Hansen, et al., J. Chem. Inf. Model., 49, 2077-2081] が収集・整理した、6,512化合物からなる復帰突然変異試験のデータセットを用い、モデルの構築および評価を行った。その結果、テストセットに対する予測正解率79.6%のモデルを構築することに成功した。これは、通常のSVMによって得られるモデルと比較し高い精度を示すものであった。また、The Area Under ROC-Curve(AUC)は0.866であり、Hansenらの結果と同等以上の結果であることが確認された。これらのことから、変異原性の予測にあたってはSVMおよびアンサンブルモデルを用いることが有力であるとの結論が得られた。
本研究构建了用于预测有机化合物变异源性的类别分类模型。以作为评价变原性的标准方法的回归突变试验为对象,目标是构建能够高精度预测其评价结果的模型。作为一种用于构建类分类模型的方法,我们提出了一种通过将多个辅助向量机(SVM)模型作为子模型构建并组合它们来进行预测的协同方法。我们从数据集中随机抽取一些化合物和结构描述符,利用SVM建立子模型。此时,也通过随机数随机地确定SVM的参数。重复多次该操作后,通过综合准确度较高的子模型预测结果来预测变异源性。汉森等[K.汉森,et al., J. Chem. Inf. Model., 49,2077-2081]收集整理的由6512个化合物组成的回归突变试验数据集,用于建立和评估模型。结果,成功建立了对测试集的预测正确率为79.6%的模型。与普通SVM得到的模型相比,这显示了更高的精度。另外,The Area Under ROC-Curve (AUC)为0.866,与Hansen等人的结果相同或更高。由此得出结论,在预测变异源性时,使用SVM和合奏模型是最有力的方法。