生物信息学中的决策树分类器

I. Poļaka, Igor Tom, A. Borisov
{"title":"生物信息学中的决策树分类器","authors":"I. Poļaka, Igor Tom, A. Borisov","doi":"10.2478/v10143-010-0052-4","DOIUrl":null,"url":null,"abstract":"Decision Tree Classifiers in Bioinformatics This paper presents a literature review of articles related to the use of decision tree classifiers in gene microarray data analysis published in the last ten years. The main focus is on researches solving the cancer classification problem using single decision tree classifiers (algorithms C4.5 and CART) and decision tree forests (e.g. random forests) showing strengths and weaknesses of the proposed methodologies when compared to other popular classification methods. The article also touches the use of decision tree classifiers in gene selection. Lēmumu koku klasifikatori bioinformātikā Rakstā piedāvāts literatūras apskats, analizējot zinātniskos rakstus, kas apskata klasifikācijas koku un to ansambļu metožu izmantošanu klasifikācijas uzdevuma risināšanai bioinformātikā. Apskatīts vēža klasifikācijas uzdevums, kurā nosaka vēža tipu vai pacienta diagnozi (slims vai vesels) pēc gēnu ekspresijas datiem (mikrorežga formāta dati). Apskatīti vairāki raksti, kas analizē dažādu klasifikācijas metožu pielietošanas iespējas šādu bioinformātikas uzdevumu risināšanā un salīdzina to veiktspēju, izmantojot dažādas datu kopas un pirmapstrādes pieejas. Klasifikatoru salīdzināšanā ņemts vērā arī īpatnējais datu raksturs - dati satur vairākus tūkstošus atribūtu (gēnu) un salīdzinoši maz ierakstu (daži desmiti vai simti), kas apgrūtina klasisko datu ieguves metožu darbību. Apskatītajos rakstos aprakstītās lēmumu koku metodes šajā rakstā tiek salīdzinātas pēc to efektivitātes (klasifikācijas kļūda/precizitāte), kas uzrādīta vairākās populārās gēnu mikrorežga datu kopās (leikēmijas, limfomas u.c. datu kopas). Rakstā arī apskatītas uz lēmumu koku izmantošanu balstītas metodes, kas izmantotas gēnu atlasei. Šādas metodes ir, piemēram, gēnu lietderības noteikšana pēc lēmumu koku klasifikatoru konstruēšanā izmantotās atribūtu informatīvuma novērtēšanas pieejas (Information Gain u.c.) un gadījuma lēmumu koku mežu generēšana, nosakot visbiežāk izmantotos gēnus, kas tiek atlasīti tālākajam darbam. Kopumā lēmumu koku klasifikatoru veiktspēja ir līdzvērtīga vai pārspēj citas klasiskās metodes, veicot pareizu datu pirmapstrādi. Lēmumu koku klasifikatoru ansambļu veiktspēja lielākoties pārspēj vienkāršu lēmumu koku klasifikatoru veiktspēju, ņemot vērā šādu klasifikatoru nestabilitāti. Lēmumu koku priekšrocība ir arī to vieglā interpretējamība un to spēja atklāt sakarības datos, kas var palīdzēt atklāt gēnu lomu slimības diagnostikā un ārstēšanā. Деревья решений в биоинформатике В статье предложен обзор литературы, анализ научных статей, которые рассматривают применение методов деревьев решений и их ансамблей для решения задач классификации в биоинформатике. Рассматривается задача классификации рака, которая определяет тип рака или диагноз пациента (больной или здоровый) по данным экспрессии генов (данные формата микрочипов). Рассматриваются статьи, в которых анализируются возможности применения различных методов классификации в области биоинформатики при решении подобных задач и сравнивается их производительность с помощью различных наборов данных и подходов предобработки. При сравнении классификаторов также принимается во внимание особый характер данных - данные содержат несколько тысяч признаков (генов) и относительно небольшое число записей (несколько десятков или сотен), что осложняет работу классических методов добычи данных. Методы деревьев решений, рассматриваемые в статьях, сравниваются в данной статье по их эффективности (ошибка /точность классификации), показанной в экспериментах с популярными наборами данных генных микрочипов (наборами данных о лейкемии, лимфоме и другими). В статье также обсуждается использование методов на основе деревьев решений для отбора генов. Такие методы включают в себя, например, использование подходов к оценке информативности атрибутов (Information Gain и т. д.), которые используются при построении классификаторов деревьев решений, и генерацию случайных лесов деревьев решений для определения наиболее часто используемых генов, которые отбираются для дальнейшей работы. В целом, классификаторы деревьев решений по производительности равны или превосходят другие традиционные методы, производя правильную предварительную обработку данных. Ансамбли классификаторов деревьев решений в значительной степени превосходят простые классификаторы деревьев решений по производительности с учетом нестабильности классификаторов. Преимущество методов деревьев решений заключается в том, что их легко интерпретировать, и они способны обнаруживать взаимосвязи в данных, которые могут помочь определить роль гена в диагностике и лечении заболеваний.","PeriodicalId":211660,"journal":{"name":"Sci. J. Riga Tech. Univ. Ser. Comput. Sci.","volume":"145 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"1900-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"19","resultStr":"{\"title\":\"Decision Tree Classifiers in Bioinformatics\",\"authors\":\"I. Poļaka, Igor Tom, A. Borisov\",\"doi\":\"10.2478/v10143-010-0052-4\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Decision Tree Classifiers in Bioinformatics This paper presents a literature review of articles related to the use of decision tree classifiers in gene microarray data analysis published in the last ten years. The main focus is on researches solving the cancer classification problem using single decision tree classifiers (algorithms C4.5 and CART) and decision tree forests (e.g. random forests) showing strengths and weaknesses of the proposed methodologies when compared to other popular classification methods. The article also touches the use of decision tree classifiers in gene selection. Lēmumu koku klasifikatori bioinformātikā Rakstā piedāvāts literatūras apskats, analizējot zinātniskos rakstus, kas apskata klasifikācijas koku un to ansambļu metožu izmantošanu klasifikācijas uzdevuma risināšanai bioinformātikā. Apskatīts vēža klasifikācijas uzdevums, kurā nosaka vēža tipu vai pacienta diagnozi (slims vai vesels) pēc gēnu ekspresijas datiem (mikrorežga formāta dati). Apskatīti vairāki raksti, kas analizē dažādu klasifikācijas metožu pielietošanas iespējas šādu bioinformātikas uzdevumu risināšanā un salīdzina to veiktspēju, izmantojot dažādas datu kopas un pirmapstrādes pieejas. Klasifikatoru salīdzināšanā ņemts vērā arī īpatnējais datu raksturs - dati satur vairākus tūkstošus atribūtu (gēnu) un salīdzinoši maz ierakstu (daži desmiti vai simti), kas apgrūtina klasisko datu ieguves metožu darbību. Apskatītajos rakstos aprakstītās lēmumu koku metodes šajā rakstā tiek salīdzinātas pēc to efektivitātes (klasifikācijas kļūda/precizitāte), kas uzrādīta vairākās populārās gēnu mikrorežga datu kopās (leikēmijas, limfomas u.c. datu kopas). Rakstā arī apskatītas uz lēmumu koku izmantošanu balstītas metodes, kas izmantotas gēnu atlasei. Šādas metodes ir, piemēram, gēnu lietderības noteikšana pēc lēmumu koku klasifikatoru konstruēšanā izmantotās atribūtu informatīvuma novērtēšanas pieejas (Information Gain u.c.) un gadījuma lēmumu koku mežu generēšana, nosakot visbiežāk izmantotos gēnus, kas tiek atlasīti tālākajam darbam. Kopumā lēmumu koku klasifikatoru veiktspēja ir līdzvērtīga vai pārspēj citas klasiskās metodes, veicot pareizu datu pirmapstrādi. Lēmumu koku klasifikatoru ansambļu veiktspēja lielākoties pārspēj vienkāršu lēmumu koku klasifikatoru veiktspēju, ņemot vērā šādu klasifikatoru nestabilitāti. Lēmumu koku priekšrocība ir arī to vieglā interpretējamība un to spēja atklāt sakarības datos, kas var palīdzēt atklāt gēnu lomu slimības diagnostikā un ārstēšanā. Деревья решений в биоинформатике В статье предложен обзор литературы, анализ научных статей, которые рассматривают применение методов деревьев решений и их ансамблей для решения задач классификации в биоинформатике. Рассматривается задача классификации рака, которая определяет тип рака или диагноз пациента (больной или здоровый) по данным экспрессии генов (данные формата микрочипов). Рассматриваются статьи, в которых анализируются возможности применения различных методов классификации в области биоинформатики при решении подобных задач и сравнивается их производительность с помощью различных наборов данных и подходов предобработки. При сравнении классификаторов также принимается во внимание особый характер данных - данные содержат несколько тысяч признаков (генов) и относительно небольшое число записей (несколько десятков или сотен), что осложняет работу классических методов добычи данных. Методы деревьев решений, рассматриваемые в статьях, сравниваются в данной статье по их эффективности (ошибка /точность классификации), показанной в экспериментах с популярными наборами данных генных микрочипов (наборами данных о лейкемии, лимфоме и другими). В статье также обсуждается использование методов на основе деревьев решений для отбора генов. Такие методы включают в себя, например, использование подходов к оценке информативности атрибутов (Information Gain и т. д.), которые используются при построении классификаторов деревьев решений, и генерацию случайных лесов деревьев решений для определения наиболее часто используемых генов, которые отбираются для дальнейшей работы. В целом, классификаторы деревьев решений по производительности равны или превосходят другие традиционные методы, производя правильную предварительную обработку данных. Ансамбли классификаторов деревьев решений в значительной степени превосходят простые классификаторы деревьев решений по производительности с учетом нестабильности классификаторов. Преимущество методов деревьев решений заключается в том, что их легко интерпретировать, и они способны обнаруживать взаимосвязи в данных, которые могут помочь определить роль гена в диагностике и лечении заболеваний.\",\"PeriodicalId\":211660,\"journal\":{\"name\":\"Sci. J. Riga Tech. Univ. Ser. Comput. Sci.\",\"volume\":\"145 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"1900-01-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"19\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Sci. J. Riga Tech. Univ. Ser. Comput. Sci.\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.2478/v10143-010-0052-4\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Sci. J. Riga Tech. Univ. Ser. Comput. Sci.","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.2478/v10143-010-0052-4","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 19

摘要

生物信息学中的决策树分类器 本文对过去十年间发表的有关在基因芯片数据分析中使用决策树分类器的文章进行了文献综述。文章主要关注使用单一决策树分类器(C4.5 和 CART 算法)和决策树森林(如随机森林)解决癌症分类问题的研究,与其他流行分类方法相比,显示了所建议方法的优缺点。文章还谈到了决策树分类器在基因选择中的应用。Rakstā piedāvāts literatūras apskats, analizējot zinātniskos rakstus, kas apskata klasifikācijas koku un to ansambļu metožu izmantošanu klasifikācijas uzdevuma risināšanai bioinformātikā.该系统可为患者提供诊断(瘦身或减肥)数据(表单数据)。在分析过程中,生物信息分析仪会对数据进行分析,并对数据的质量进行评估。该功能可帮助您了解数据的使用情况--饱和的数据可用于属性(gēnu)和数据处理(desmiti 或 simti),同时可帮助您了解数据的使用情况。在此基础上,我们还将对数据进行分析,并将分析结果应用于其他方面(例如,对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析、对数据的分析)、在公众中广泛传播的音乐和舞蹈(音乐、舞蹈和其他)。c. datu kopās)。在 "刹那 "一词中,"刹那 "是 "刹那 "的意思,"刹那 "是 "刹那 "的意思,"刹那 "是 "刹那 "的意思,"刹那 "是 "刹那 "的意思。计量单位是信息增益(Information Gain)。c.) un gadījuma lēmumu koku mežu generēšana, nosakot visbiežāk izmantotos gēnus, kas tiek atlasīti tālākajam darbam.在全球范围内,我们都在努力寻找新的方法来解决这些问题,同时我们也在努力寻找新的方法来解决这些问题。在全球范围内,我们都在努力改善我们的工作环境,提高我们的工作效率。我们可以通过解释决策树来获得数据,也可以通过使用决策树来进行诊断。生物信息学中的决策树 文章提供了文献综述,分析了考虑应用决策树方法及其集合解决生物信息学分类问题的科学文章。文章考虑了癌症分类任务,即根据基因表达数据(微阵列格式数据)确定癌症类型或诊断病人(患病或健康)。我们回顾了分析不同生物信息学分类方法在类似任务中的可行性的论文,并使用不同的数据集和预处理方法对它们的性能进行了比较。分类器的比较还考虑到了数据的特殊性--数据包含几千个特征(基因)和相对较少的记录(几十或几百条),这使得经典数据挖掘方法的性能变得复杂。本文对文章中讨论的决策树方法的性能(分类错误/准确率)进行了比较,并在常用基因芯片数据集(白血病数据集、淋巴瘤数据集等)的实验中进行了展示。本文还讨论了基于决策树的基因选择方法。例如,这些方法包括使用属性信息得分法(信息增益等)来构建决策树分类器,以及生成决策树随机森林来识别最常用的基因,并选择这些基因进行进一步研究。一般来说,决策树分类器的性能等同于或优于其他传统方法,能对数据进行正确的预处理。鉴于分类器的不稳定性,决策树分类器的集合在很大程度上优于简单的决策树分类器。决策树方法的优点是易于解释,能够发现数据中的关系,有助于确定基因在疾病诊断和治疗中的作用。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Decision Tree Classifiers in Bioinformatics
Decision Tree Classifiers in Bioinformatics This paper presents a literature review of articles related to the use of decision tree classifiers in gene microarray data analysis published in the last ten years. The main focus is on researches solving the cancer classification problem using single decision tree classifiers (algorithms C4.5 and CART) and decision tree forests (e.g. random forests) showing strengths and weaknesses of the proposed methodologies when compared to other popular classification methods. The article also touches the use of decision tree classifiers in gene selection. Lēmumu koku klasifikatori bioinformātikā Rakstā piedāvāts literatūras apskats, analizējot zinātniskos rakstus, kas apskata klasifikācijas koku un to ansambļu metožu izmantošanu klasifikācijas uzdevuma risināšanai bioinformātikā. Apskatīts vēža klasifikācijas uzdevums, kurā nosaka vēža tipu vai pacienta diagnozi (slims vai vesels) pēc gēnu ekspresijas datiem (mikrorežga formāta dati). Apskatīti vairāki raksti, kas analizē dažādu klasifikācijas metožu pielietošanas iespējas šādu bioinformātikas uzdevumu risināšanā un salīdzina to veiktspēju, izmantojot dažādas datu kopas un pirmapstrādes pieejas. Klasifikatoru salīdzināšanā ņemts vērā arī īpatnējais datu raksturs - dati satur vairākus tūkstošus atribūtu (gēnu) un salīdzinoši maz ierakstu (daži desmiti vai simti), kas apgrūtina klasisko datu ieguves metožu darbību. Apskatītajos rakstos aprakstītās lēmumu koku metodes šajā rakstā tiek salīdzinātas pēc to efektivitātes (klasifikācijas kļūda/precizitāte), kas uzrādīta vairākās populārās gēnu mikrorežga datu kopās (leikēmijas, limfomas u.c. datu kopas). Rakstā arī apskatītas uz lēmumu koku izmantošanu balstītas metodes, kas izmantotas gēnu atlasei. Šādas metodes ir, piemēram, gēnu lietderības noteikšana pēc lēmumu koku klasifikatoru konstruēšanā izmantotās atribūtu informatīvuma novērtēšanas pieejas (Information Gain u.c.) un gadījuma lēmumu koku mežu generēšana, nosakot visbiežāk izmantotos gēnus, kas tiek atlasīti tālākajam darbam. Kopumā lēmumu koku klasifikatoru veiktspēja ir līdzvērtīga vai pārspēj citas klasiskās metodes, veicot pareizu datu pirmapstrādi. Lēmumu koku klasifikatoru ansambļu veiktspēja lielākoties pārspēj vienkāršu lēmumu koku klasifikatoru veiktspēju, ņemot vērā šādu klasifikatoru nestabilitāti. Lēmumu koku priekšrocība ir arī to vieglā interpretējamība un to spēja atklāt sakarības datos, kas var palīdzēt atklāt gēnu lomu slimības diagnostikā un ārstēšanā. Деревья решений в биоинформатике В статье предложен обзор литературы, анализ научных статей, которые рассматривают применение методов деревьев решений и их ансамблей для решения задач классификации в биоинформатике. Рассматривается задача классификации рака, которая определяет тип рака или диагноз пациента (больной или здоровый) по данным экспрессии генов (данные формата микрочипов). Рассматриваются статьи, в которых анализируются возможности применения различных методов классификации в области биоинформатики при решении подобных задач и сравнивается их производительность с помощью различных наборов данных и подходов предобработки. При сравнении классификаторов также принимается во внимание особый характер данных - данные содержат несколько тысяч признаков (генов) и относительно небольшое число записей (несколько десятков или сотен), что осложняет работу классических методов добычи данных. Методы деревьев решений, рассматриваемые в статьях, сравниваются в данной статье по их эффективности (ошибка /точность классификации), показанной в экспериментах с популярными наборами данных генных микрочипов (наборами данных о лейкемии, лимфоме и другими). В статье также обсуждается использование методов на основе деревьев решений для отбора генов. Такие методы включают в себя, например, использование подходов к оценке информативности атрибутов (Information Gain и т. д.), которые используются при построении классификаторов деревьев решений, и генерацию случайных лесов деревьев решений для определения наиболее часто используемых генов, которые отбираются для дальнейшей работы. В целом, классификаторы деревьев решений по производительности равны или превосходят другие традиционные методы, производя правильную предварительную обработку данных. Ансамбли классификаторов деревьев решений в значительной степени превосходят простые классификаторы деревьев решений по производительности с учетом нестабильности классификаторов. Преимущество методов деревьев решений заключается в том, что их легко интерпретировать, и они способны обнаруживать взаимосвязи в данных, которые могут помочь определить роль гена в диагностике и лечении заболеваний.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信