用于畅销书预测的机器学习算法的性能评估

Ji-Eun Yu, Sol-Bee Cho, Seok-Jong Yu
{"title":"用于畅销书预测的机器学习算法的性能评估","authors":"Ji-Eun Yu, Sol-Bee Cho, Seok-Jong Yu","doi":"10.14801/jkiit.2023.21.7.1","DOIUrl":null,"url":null,"abstract":"베스트셀러 도서는 독자들이 책을 선택하는 가장 보편적인 방법이며, 이러한 이유로 베스트셀러의 예측과 선정은 출판 시장에서 중요한 마케팅 전략 지표이다. 본 연구에서는 도서의 메타 데이터를 활용하여 베스트셀러 순위 200위 내 유지 여부와 판매 지수 구간을 예측하는 모델을 제안하고, 다양한 머신러닝 알고리즘의 성능을 비교평가하고자 한다. 이를 위하여 Yes24 사이트의 월간 베스트셀러 데이터를 크롤링하여 수집하고, 각 데이터 속성에 대해 적절한 전처리를 수행하였다. 순위 유지 여부 예측을 위해 다양한 분류 알고리즘을 활용하였고, 최종적으로 각 알고리즘의 예측 성능을 평가한 결과, 다중 퍼셉트론, CatBoost, 랜덤 포레스트의 순서로 정확도가 높게 나타났다. 본 연구는 베스트셀러 순위 유지 여부 예측 문제에 대해 주요 분류 알고리즘의 수행 성능을 종합적으로 비교했다는데 의미가 있다. 그러나 한계점으로 리뷰 수, 평점 등에 의존하는 예측 방법에서는 데이터가 부족한 신간 도서에서 cold start 문제를 극복하기 어려웠으며, 이에 대한 후속 보완 연구의 필요성을 제안한다.","PeriodicalId":498669,"journal":{"name":"Journal of Korean Institute of Information Technology","volume":"56 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-07-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Performance Evaluation of Machine-Learning Algorithms for Bestseller Book Prediction\",\"authors\":\"Ji-Eun Yu, Sol-Bee Cho, Seok-Jong Yu\",\"doi\":\"10.14801/jkiit.2023.21.7.1\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"베스트셀러 도서는 독자들이 책을 선택하는 가장 보편적인 방법이며, 이러한 이유로 베스트셀러의 예측과 선정은 출판 시장에서 중요한 마케팅 전략 지표이다. 본 연구에서는 도서의 메타 데이터를 활용하여 베스트셀러 순위 200위 내 유지 여부와 판매 지수 구간을 예측하는 모델을 제안하고, 다양한 머신러닝 알고리즘의 성능을 비교평가하고자 한다. 이를 위하여 Yes24 사이트의 월간 베스트셀러 데이터를 크롤링하여 수집하고, 각 데이터 속성에 대해 적절한 전처리를 수행하였다. 순위 유지 여부 예측을 위해 다양한 분류 알고리즘을 활용하였고, 최종적으로 각 알고리즘의 예측 성능을 평가한 결과, 다중 퍼셉트론, CatBoost, 랜덤 포레스트의 순서로 정확도가 높게 나타났다. 본 연구는 베스트셀러 순위 유지 여부 예측 문제에 대해 주요 분류 알고리즘의 수행 성능을 종합적으로 비교했다는데 의미가 있다. 그러나 한계점으로 리뷰 수, 평점 등에 의존하는 예측 방법에서는 데이터가 부족한 신간 도서에서 cold start 문제를 극복하기 어려웠으며, 이에 대한 후속 보완 연구의 필요성을 제안한다.\",\"PeriodicalId\":498669,\"journal\":{\"name\":\"Journal of Korean Institute of Information Technology\",\"volume\":\"56 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-07-31\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Journal of Korean Institute of Information Technology\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.14801/jkiit.2023.21.7.1\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of Korean Institute of Information Technology","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.14801/jkiit.2023.21.7.1","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

畅销书是读者选择书籍最普遍的方法,因此,畅销书的预测和选择是出版市场上重要的营销战略指标。本研究提出一种模型,可以利用图书的元数据预测畅销书排行榜前200名的维持与否和销售指数区间,并比较评价多种机器学习算法的性能。为此,对Yes24网站的月畅销书数据进行了滚动收集,并对各数据属性进行了适当的前处理。为了预测是否保持排名,使用了多种分类算法,最终对各算法的预测性能进行了评估,结果显示其准确度为多感知器、CatBoost、随机森林。本研究的意义在于,就能否维持畅销书排行榜的预测问题,综合比较了主要分类算法的执行性能。但是作为界限,在依赖评论数、评分等的预测方法上,在数据不足的新刊图书上,很难克服cold start问题,提出了对此进行后续补充研究的必要性。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
Performance Evaluation of Machine-Learning Algorithms for Bestseller Book Prediction
베스트셀러 도서는 독자들이 책을 선택하는 가장 보편적인 방법이며, 이러한 이유로 베스트셀러의 예측과 선정은 출판 시장에서 중요한 마케팅 전략 지표이다. 본 연구에서는 도서의 메타 데이터를 활용하여 베스트셀러 순위 200위 내 유지 여부와 판매 지수 구간을 예측하는 모델을 제안하고, 다양한 머신러닝 알고리즘의 성능을 비교평가하고자 한다. 이를 위하여 Yes24 사이트의 월간 베스트셀러 데이터를 크롤링하여 수집하고, 각 데이터 속성에 대해 적절한 전처리를 수행하였다. 순위 유지 여부 예측을 위해 다양한 분류 알고리즘을 활용하였고, 최종적으로 각 알고리즘의 예측 성능을 평가한 결과, 다중 퍼셉트론, CatBoost, 랜덤 포레스트의 순서로 정확도가 높게 나타났다. 본 연구는 베스트셀러 순위 유지 여부 예측 문제에 대해 주요 분류 알고리즘의 수행 성능을 종합적으로 비교했다는데 의미가 있다. 그러나 한계점으로 리뷰 수, 평점 등에 의존하는 예측 방법에서는 데이터가 부족한 신간 도서에서 cold start 문제를 극복하기 어려웠으며, 이에 대한 후속 보완 연구의 필요성을 제안한다.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信