{"title":"YSA SINIFLANDIRMA MODELLERİNDE KORELASYON-HİPOTEZ TESTİ TABANLI FİLTRELEME YOLUYLA GİRDİ SEÇİMİ","authors":"Meryem Uluskan, Halil Derya Şenli","doi":"10.51541/nicel.1372774","DOIUrl":"https://doi.org/10.51541/nicel.1372774","url":null,"abstract":"Bu çalışmada başlıca amaç, yüksek miktardaki olası girdi değişken sayısını, bu değişkenler arasındaki korelasyonları göz önünde bulundurarak azaltarak sınıflandırma performansı yüksek Yapay Sinir Ağı (YSA) modelleri elde etmektir. Bunu gerçekleştirmek için 30 adet olası girdi değişkeni olan bir meme kanseri teşhis problemi ele alınmış ve önerilen korelasyon-hipotez testi tabanlı bir filtreleme yöntemi ile girdi değişken sayısı azaltılarak YSA modeli oluşturulmuştur. Önerilen modelin etkinliği farklı girdi değişken setlerini içeren altı YSA modeli ile karşılaştırılmıştır. Bu altı model, tüm girdi değişkenlerini içeren modelle, model tabanlı seçim yöntemlerinden aşamalı regresyon, ileri doğru seçim ve geriye doğru eleme yöntemleri ile seçilmiş girdi değişkenleriyle elde edilmiş olan modelleri kapsamaktadır. Modeller oluşturulurken veri seti farklı eğitim-test yüzdelerine bölünmüş ve gizli katmanda farklı nöron sayıları denenmiştir. Modellerin sınıflandırma performanslarını karşılaştırmak için doğruluk, duyarlılık, kesinlik ve F1-skoru ölçütleri kullanılmıştır. Sonuç olarak, önerilen korelasyon tabanlı filtreleme yöntemi ile seçilen dokuz girdi değişkenli modeller için doğruluk değeri 0,93-0,95 arasında bulunmuş olup bu değer belirgin şekilde iyidir. Duyarlılık değeri modelimiz için 0,85-0,88 aralığında ve yeterli düzeyde elde edilmiştir. Kesinlik değerinin önerilen modelimiz için 0,98-0,988 aralığında ve çok yüksek olduğu belirlenmiştir. Bu çalışmada önerilen modelin F1-skoru 0,907-0,931 arasında olup yeterince yüksek bir değere sahiptir. Karşılaştırılan modeller içinde önerilen dokuz girdi değişkenli modelin değişken sayısının en düşük olduğu, yani en sade model olduğu, ve gizli katmanda sadece 10 nöronla bile iyi bir sınıflandırma performansına sahip olduğu göz önüne alındığında bu yöntemin özellikle model tabanlı yöntemlere kıyasla kısa sürede ve düşük maliyetlerle anlaşılır sınıflandırma modelleri oluşturmada verimli olacağı belirlenmiştir.","PeriodicalId":499865,"journal":{"name":"Nicel bilimler dergisi","volume":" 65","pages":""},"PeriodicalIF":0.0,"publicationDate":"2024-05-10","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"140993272","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
{"title":"QUANTIFYING THE IMPACT OF RISK FACTORS ON DIRECT COMPENSATION PROPERTY DAMAGE IN CANADIAN AUTOMOBILE INSURANCE","authors":"Pervin Baylan, Neslihan Demi̇rel","doi":"10.51541/nicel.1397941","DOIUrl":"https://doi.org/10.51541/nicel.1397941","url":null,"abstract":"This study presents a statistical analysis assessing the impact of various risk factors on direct compensation property damage (DCPD) claims in private passenger vehicle accidents. Using automobile insurance data in Ontario, Canada for the decade years period between 2003 and 2012, a statistical model of property damage was explored via a generalized linear binary logit mixed model and considered the imbalance between the classes of insureds. The results indicate that several risk factors have a significant impact on the likelihood of DCPD claims, including usage, training, outstanding losses, and incurred losses. The effects of these risk factors were observed under the weights — the number of trials used to generate each success proportion — in the different classes of insureds. The generalized linear mixed models (GLMMs) analysis provides a powerful tool for quantifying the impact of risk factors on binary outcomes, which are called DCPD claims and property damage (PD) claims covered by third-party liability (TPL) insurance. These models can also inform insurance underwriting and policy design, focusing on identifying the most significant risk factors. The performance metrics calculated by considering the class imbalance in binary outcomes verify the proposed model’s ability to accurately predict classes. The F1 score, an evaluation metric to measure the performance of classification, was calculated as 0.934. In addition, the PR AUC score, which is the area under the Precision-Recall (PR) curve, was computed as 0.953. These high scores indicate that the proposed model performs well in the classification. The other metrics also support the classification accuracy of the proposed model. The findings of the analysis can help insurers better understand the underlying drivers of property damages and develop more accurate and effective strategies for risk mitigation. Furthermore, this study highlights the importance of developing class-specific risk assessment models to account for the imbalance across different classes.","PeriodicalId":499865,"journal":{"name":"Nicel bilimler dergisi","volume":" 616","pages":""},"PeriodicalIF":0.0,"publicationDate":"2024-01-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"139618080","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}