{"title":"Categorização de ações em vídeos de futebol utilizando uma arquitetura CNN-RNN","authors":"Matheus de Sousa Macedo, D. Adamatti","doi":"10.5335/rbca.v15i3.14743","DOIUrl":null,"url":null,"abstract":"A extração de informações semânticas de vídeos de futebol tem diversas aplicações, como publicidade contextual, resumo de partidas e extração de destaques. As aplicações de análise de vídeos de futebol podem ser categorizadas em Detecção de Ações, Rastreamento de jogadores e/ou bola e Análise de jogo. Utiliza-se como base de dados uma versão modificadado Dataset SoccerNet-v2, afim de reduzir o Poder Computacional mínimo exigido. A tarefa de Detecção de Ações torna-se difícil por conta da sobreposição de ações e também por causa das condições de captura de vídeo que tem diversos ângulos, anúncios e cortes de câmera. Para superar esses desafios, a Rede Neural Convolucional (CNN) e a Rede Neural Recorrente (RNN) são utilizadas em conjunto para classificar diferentes comprimentos de vídeos de ações do futebol.Utiliza-se uma CNN, InceptionV3, pré-treinada para a extração de características espaciais. Posteriormente, uma RNN, Unidades Recorrentes Fechadas (GRU), para o reconhecimento de sequências, que trata a dependência temporal e resolve o problema do desaparecimento de gradiente. Por fim, a camada Softmax atribui probabilidades decimais a cada classe. Chega-se a uma configuração de rede, com quatro ações classificáveis, e uma acurácia de 94%.","PeriodicalId":138408,"journal":{"name":"Revista Brasileira de Computação Aplicada","volume":"19 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-11-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Brasileira de Computação Aplicada","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5335/rbca.v15i3.14743","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
A extração de informações semânticas de vídeos de futebol tem diversas aplicações, como publicidade contextual, resumo de partidas e extração de destaques. As aplicações de análise de vídeos de futebol podem ser categorizadas em Detecção de Ações, Rastreamento de jogadores e/ou bola e Análise de jogo. Utiliza-se como base de dados uma versão modificadado Dataset SoccerNet-v2, afim de reduzir o Poder Computacional mínimo exigido. A tarefa de Detecção de Ações torna-se difícil por conta da sobreposição de ações e também por causa das condições de captura de vídeo que tem diversos ângulos, anúncios e cortes de câmera. Para superar esses desafios, a Rede Neural Convolucional (CNN) e a Rede Neural Recorrente (RNN) são utilizadas em conjunto para classificar diferentes comprimentos de vídeos de ações do futebol.Utiliza-se uma CNN, InceptionV3, pré-treinada para a extração de características espaciais. Posteriormente, uma RNN, Unidades Recorrentes Fechadas (GRU), para o reconhecimento de sequências, que trata a dependência temporal e resolve o problema do desaparecimento de gradiente. Por fim, a camada Softmax atribui probabilidades decimais a cada classe. Chega-se a uma configuração de rede, com quatro ações classificáveis, e uma acurácia de 94%.