{"title":"考察特征方法在学生分类中的应用效果","authors":"Özlem Bezek Güre","doi":"10.35826/ijetsar.668","DOIUrl":null,"url":null,"abstract":"Bu çalıÅma, özellik seçme algoritmalarından yararlanarak EÄitimsel Veri MadenciliÄi (EDM) baÄlamında makine öÄrenimi modellerinin optimize edilmesine odaklanmaktadır. Özellik seçim yöntemleri, makine öÄrenme algoritmalarının hızını ve tahminleme performansını arttırmaya, verinin anlaÅılmasına ve maliyetinin de azaltılmasına olanak saÄlamaktadırlar Bu çalıÅmada; özellik seçim yöntemlerinden Information Gain, Gain Ratio, Symmetric Uncertainty Coefficient, Relief-F, Correlation Based Feature Selection Method ve One R measure kullanılarak, üniversite öÄrencilerinin baÅarılarını etkileyen faktörleri belirlemek amaçlanmaktadır. Özellik seçim yöntemlerinin etkisini karÅılaÅtırmak amacıyla Naïve Bayes yöntemi uygulanmıÅtır. Bu amaçla, UCI Machine Learning Repository veri tabanında yer alan “Higher Education Students Performance Evaluation dataset” kullanılmıÅtır. Veri seti, 33 deÄiÅken ve 145 örnekten oluÅmaktadır. ÇalıÅmada; 30 deÄiÅken kullanılmıÅtır. Analiz sonuçlarına göre; %57.24 ile Information Gain ve Relief-F ölçüsü en iyi özellik seçim yöntemi olarak belirlenmiÅtir. Correlation Based Feature Selection Method hariç diÄer tüm yöntemlerde öÄrenci baÅarısını etkileyen en önemli faktör, öÄrencinin son yarıyıl genel not ortalaması olarak tespit edilmiÅtir. DiÄer taraftan; One R yöntemi hariç kullanılan özellik seçim yöntemlerinin Naïve Bayes yönteminin performasını artırdıÄı görülmektedir. Özellik seçim yöntemlerinin veri madenciliÄi yöntemlerin verimliliÄini artırmak amacıyla kullanılması önerilmektedir.","PeriodicalId":262926,"journal":{"name":"International Journal of Education Technology and Scientific Researches","volume":"38 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"INVESTIGATING THE PERFORMANCE OF FEATURE ION METHODS IN CLASSIFYING STUDEN\",\"authors\":\"Özlem Bezek Güre\",\"doi\":\"10.35826/ijetsar.668\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Bu çalıÅma, özellik seçme algoritmalarından yararlanarak EÄitimsel Veri MadenciliÄi (EDM) baÄlamında makine öÄrenimi modellerinin optimize edilmesine odaklanmaktadır. Özellik seçim yöntemleri, makine öÄrenme algoritmalarının hızını ve tahminleme performansını arttırmaya, verinin anlaÅılmasına ve maliyetinin de azaltılmasına olanak saÄlamaktadırlar Bu çalıÅmada; özellik seçim yöntemlerinden Information Gain, Gain Ratio, Symmetric Uncertainty Coefficient, Relief-F, Correlation Based Feature Selection Method ve One R measure kullanılarak, üniversite öÄrencilerinin baÅarılarını etkileyen faktörleri belirlemek amaçlanmaktadır. Özellik seçim yöntemlerinin etkisini karÅılaÅtırmak amacıyla Naïve Bayes yöntemi uygulanmıÅtır. Bu amaçla, UCI Machine Learning Repository veri tabanında yer alan “Higher Education Students Performance Evaluation dataset” kullanılmıÅtır. Veri seti, 33 deÄiÅken ve 145 örnekten oluÅmaktadır. ÇalıÅmada; 30 deÄiÅken kullanılmıÅtır. Analiz sonuçlarına göre; %57.24 ile Information Gain ve Relief-F ölçüsü en iyi özellik seçim yöntemi olarak belirlenmiÅtir. Correlation Based Feature Selection Method hariç diÄer tüm yöntemlerde öÄrenci baÅarısını etkileyen en önemli faktör, öÄrencinin son yarıyıl genel not ortalaması olarak tespit edilmiÅtir. DiÄer taraftan; One R yöntemi hariç kullanılan özellik seçim yöntemlerinin Naïve Bayes yönteminin performasını artırdıÄı görülmektedir. Özellik seçim yöntemlerinin veri madenciliÄi yöntemlerin verimliliÄini artırmak amacıyla kullanılması önerilmektedir.\",\"PeriodicalId\":262926,\"journal\":{\"name\":\"International Journal of Education Technology and Scientific Researches\",\"volume\":\"38 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-01-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"International Journal of Education Technology and Scientific Researches\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.35826/ijetsar.668\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"International Journal of Education Technology and Scientific Researches","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.35826/ijetsar.668","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
摘要
本文的重点是利用特征选择算法优化教育数据挖掘(EDM)中的机器学习模型。本研究使用信息增益、增益比、对称不确定性系数、Relief-F、基于相关性的特征选择方法和 One R 测量来确定影响大学生成功的因素。采用 Naïve Bayes 方法来比较特征选择方法的效果。为此,使用了 UCI 机器学习资源库数据库中的 "高等教育学生成绩评估数据集"。该数据集由 33 个变量和 145 个样本组成。研究中使用了 30 个变量。根据分析结果,信息增益和 Relief-F 测量被确定为最佳特征选择方法,得分率为 57.24%。除基于相关性的特征选择方法外,所有方法都认为影响学生成绩的最重要因素是学生上学期的平均学分绩点。另一方面,除 One R 方法外,其他特征选择方法都提高了 Naïve Bayes 方法的性能。建议使用特征选择方法来提高数据挖掘方法的效率。
INVESTIGATING THE PERFORMANCE OF FEATURE ION METHODS IN CLASSIFYING STUDEN
Bu çalıÅma, özellik seçme algoritmalarından yararlanarak EÄitimsel Veri MadenciliÄi (EDM) baÄlamında makine öÄrenimi modellerinin optimize edilmesine odaklanmaktadır. Özellik seçim yöntemleri, makine öÄrenme algoritmalarının hızını ve tahminleme performansını arttırmaya, verinin anlaÅılmasına ve maliyetinin de azaltılmasına olanak saÄlamaktadırlar Bu çalıÅmada; özellik seçim yöntemlerinden Information Gain, Gain Ratio, Symmetric Uncertainty Coefficient, Relief-F, Correlation Based Feature Selection Method ve One R measure kullanılarak, üniversite öÄrencilerinin baÅarılarını etkileyen faktörleri belirlemek amaçlanmaktadır. Özellik seçim yöntemlerinin etkisini karÅılaÅtırmak amacıyla Naïve Bayes yöntemi uygulanmıÅtır. Bu amaçla, UCI Machine Learning Repository veri tabanında yer alan “Higher Education Students Performance Evaluation dataset” kullanılmıÅtır. Veri seti, 33 deÄiÅken ve 145 örnekten oluÅmaktadır. ÇalıÅmada; 30 deÄiÅken kullanılmıÅtır. Analiz sonuçlarına göre; %57.24 ile Information Gain ve Relief-F ölçüsü en iyi özellik seçim yöntemi olarak belirlenmiÅtir. Correlation Based Feature Selection Method hariç diÄer tüm yöntemlerde öÄrenci baÅarısını etkileyen en önemli faktör, öÄrencinin son yarıyıl genel not ortalaması olarak tespit edilmiÅtir. DiÄer taraftan; One R yöntemi hariç kullanılan özellik seçim yöntemlerinin Naïve Bayes yönteminin performasını artırdıÄı görülmektedir. Özellik seçim yöntemlerinin veri madenciliÄi yöntemlerin verimliliÄini artırmak amacıyla kullanılması önerilmektedir.