{"title":"Aprendizado por Reforço e Jogos: uma proposta focada na análise de algoritmos","authors":"Diego Costa, Giancarlo Lucca, D. Adamatti","doi":"10.5335/rbca.v14i2.12500","DOIUrl":null,"url":null,"abstract":"O mercado de jogos movimenta bilhões de dólares por ano e está crescendo exponencialmente. O aprendizado por reforço é uma técnica de tentativa e erro que está diretamente relacionada a esse mercado. Assim, o estudo dessas técnicas em jogos populares torna-se relevante, como o estudo de caso deste projeto, o jogo Pac-man. Este trabalho tem como objetivo utilizar métricas para validar os resultados obtidos na simulação de algoritmos de aprendizado por reforço e sua validação baseada em algumas métricas, como recompensadas ganhas pelo agente, a exploração do ambiente, sua completude e o tempo de cada simulação. Vários testes foram realizados com cada algoritmo testado e os resultados demonstram que para ambientes com comportamentos com imprevisibilidade, o aprendizado por reforço tende a demorar muito a convergir.","PeriodicalId":41711,"journal":{"name":"Revista Brasileira de Computacao Aplicada","volume":null,"pages":null},"PeriodicalIF":0.2000,"publicationDate":"2022-07-10","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Brasileira de Computacao Aplicada","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5335/rbca.v14i2.12500","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS","Score":null,"Total":0}
引用次数: 0
Abstract
O mercado de jogos movimenta bilhões de dólares por ano e está crescendo exponencialmente. O aprendizado por reforço é uma técnica de tentativa e erro que está diretamente relacionada a esse mercado. Assim, o estudo dessas técnicas em jogos populares torna-se relevante, como o estudo de caso deste projeto, o jogo Pac-man. Este trabalho tem como objetivo utilizar métricas para validar os resultados obtidos na simulação de algoritmos de aprendizado por reforço e sua validação baseada em algumas métricas, como recompensadas ganhas pelo agente, a exploração do ambiente, sua completude e o tempo de cada simulação. Vários testes foram realizados com cada algoritmo testado e os resultados demonstram que para ambientes com comportamentos com imprevisibilidade, o aprendizado por reforço tende a demorar muito a convergir.