{"title":"强化学习和游戏:一种专注于算法分析的建议","authors":"Diego Costa, Giancarlo Lucca, D. Adamatti","doi":"10.5335/rbca.v14i2.12500","DOIUrl":null,"url":null,"abstract":"O mercado de jogos movimenta bilhões de dólares por ano e está crescendo exponencialmente. O aprendizado por reforço é uma técnica de tentativa e erro que está diretamente relacionada a esse mercado. Assim, o estudo dessas técnicas em jogos populares torna-se relevante, como o estudo de caso deste projeto, o jogo Pac-man. Este trabalho tem como objetivo utilizar métricas para validar os resultados obtidos na simulação de algoritmos de aprendizado por reforço e sua validação baseada em algumas métricas, como recompensadas ganhas pelo agente, a exploração do ambiente, sua completude e o tempo de cada simulação. Vários testes foram realizados com cada algoritmo testado e os resultados demonstram que para ambientes com comportamentos com imprevisibilidade, o aprendizado por reforço tende a demorar muito a convergir.","PeriodicalId":41711,"journal":{"name":"Revista Brasileira de Computacao Aplicada","volume":null,"pages":null},"PeriodicalIF":0.2000,"publicationDate":"2022-07-10","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Aprendizado por Reforço e Jogos: uma proposta focada na análise de algoritmos\",\"authors\":\"Diego Costa, Giancarlo Lucca, D. Adamatti\",\"doi\":\"10.5335/rbca.v14i2.12500\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"O mercado de jogos movimenta bilhões de dólares por ano e está crescendo exponencialmente. O aprendizado por reforço é uma técnica de tentativa e erro que está diretamente relacionada a esse mercado. Assim, o estudo dessas técnicas em jogos populares torna-se relevante, como o estudo de caso deste projeto, o jogo Pac-man. Este trabalho tem como objetivo utilizar métricas para validar os resultados obtidos na simulação de algoritmos de aprendizado por reforço e sua validação baseada em algumas métricas, como recompensadas ganhas pelo agente, a exploração do ambiente, sua completude e o tempo de cada simulação. Vários testes foram realizados com cada algoritmo testado e os resultados demonstram que para ambientes com comportamentos com imprevisibilidade, o aprendizado por reforço tende a demorar muito a convergir.\",\"PeriodicalId\":41711,\"journal\":{\"name\":\"Revista Brasileira de Computacao Aplicada\",\"volume\":null,\"pages\":null},\"PeriodicalIF\":0.2000,\"publicationDate\":\"2022-07-10\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Revista Brasileira de Computacao Aplicada\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.5335/rbca.v14i2.12500\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q4\",\"JCRName\":\"COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Brasileira de Computacao Aplicada","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5335/rbca.v14i2.12500","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS","Score":null,"Total":0}
Aprendizado por Reforço e Jogos: uma proposta focada na análise de algoritmos
O mercado de jogos movimenta bilhões de dólares por ano e está crescendo exponencialmente. O aprendizado por reforço é uma técnica de tentativa e erro que está diretamente relacionada a esse mercado. Assim, o estudo dessas técnicas em jogos populares torna-se relevante, como o estudo de caso deste projeto, o jogo Pac-man. Este trabalho tem como objetivo utilizar métricas para validar os resultados obtidos na simulação de algoritmos de aprendizado por reforço e sua validação baseada em algumas métricas, como recompensadas ganhas pelo agente, a exploração do ambiente, sua completude e o tempo de cada simulação. Vários testes foram realizados com cada algoritmo testado e os resultados demonstram que para ambientes com comportamentos com imprevisibilidade, o aprendizado por reforço tende a demorar muito a convergir.