{"title":"Performance Evaluation of Machine-Learning Algorithms for Bestseller Book Prediction","authors":"Ji-Eun Yu, Sol-Bee Cho, Seok-Jong Yu","doi":"10.14801/jkiit.2023.21.7.1","DOIUrl":null,"url":null,"abstract":"베스트셀러 도서는 독자들이 책을 선택하는 가장 보편적인 방법이며, 이러한 이유로 베스트셀러의 예측과 선정은 출판 시장에서 중요한 마케팅 전략 지표이다. 본 연구에서는 도서의 메타 데이터를 활용하여 베스트셀러 순위 200위 내 유지 여부와 판매 지수 구간을 예측하는 모델을 제안하고, 다양한 머신러닝 알고리즘의 성능을 비교평가하고자 한다. 이를 위하여 Yes24 사이트의 월간 베스트셀러 데이터를 크롤링하여 수집하고, 각 데이터 속성에 대해 적절한 전처리를 수행하였다. 순위 유지 여부 예측을 위해 다양한 분류 알고리즘을 활용하였고, 최종적으로 각 알고리즘의 예측 성능을 평가한 결과, 다중 퍼셉트론, CatBoost, 랜덤 포레스트의 순서로 정확도가 높게 나타났다. 본 연구는 베스트셀러 순위 유지 여부 예측 문제에 대해 주요 분류 알고리즘의 수행 성능을 종합적으로 비교했다는데 의미가 있다. 그러나 한계점으로 리뷰 수, 평점 등에 의존하는 예측 방법에서는 데이터가 부족한 신간 도서에서 cold start 문제를 극복하기 어려웠으며, 이에 대한 후속 보완 연구의 필요성을 제안한다.","PeriodicalId":498669,"journal":{"name":"Journal of Korean Institute of Information Technology","volume":"56 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-07-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of Korean Institute of Information Technology","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.14801/jkiit.2023.21.7.1","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
베스트셀러 도서는 독자들이 책을 선택하는 가장 보편적인 방법이며, 이러한 이유로 베스트셀러의 예측과 선정은 출판 시장에서 중요한 마케팅 전략 지표이다. 본 연구에서는 도서의 메타 데이터를 활용하여 베스트셀러 순위 200위 내 유지 여부와 판매 지수 구간을 예측하는 모델을 제안하고, 다양한 머신러닝 알고리즘의 성능을 비교평가하고자 한다. 이를 위하여 Yes24 사이트의 월간 베스트셀러 데이터를 크롤링하여 수집하고, 각 데이터 속성에 대해 적절한 전처리를 수행하였다. 순위 유지 여부 예측을 위해 다양한 분류 알고리즘을 활용하였고, 최종적으로 각 알고리즘의 예측 성능을 평가한 결과, 다중 퍼셉트론, CatBoost, 랜덤 포레스트의 순서로 정확도가 높게 나타났다. 본 연구는 베스트셀러 순위 유지 여부 예측 문제에 대해 주요 분류 알고리즘의 수행 성능을 종합적으로 비교했다는데 의미가 있다. 그러나 한계점으로 리뷰 수, 평점 등에 의존하는 예측 방법에서는 데이터가 부족한 신간 도서에서 cold start 문제를 극복하기 어려웠으며, 이에 대한 후속 보완 연구의 필요성을 제안한다.