{"title":"使用 CNN-RNN 架构对足球视频中的动作进行分类","authors":"Matheus de Sousa Macedo, D. Adamatti","doi":"10.5335/rbca.v15i3.14743","DOIUrl":null,"url":null,"abstract":"A extração de informações semânticas de vídeos de futebol tem diversas aplicações, como publicidade contextual, resumo de partidas e extração de destaques. As aplicações de análise de vídeos de futebol podem ser categorizadas em Detecção de Ações, Rastreamento de jogadores e/ou bola e Análise de jogo. Utiliza-se como base de dados uma versão modificadado Dataset SoccerNet-v2, afim de reduzir o Poder Computacional mínimo exigido. A tarefa de Detecção de Ações torna-se difícil por conta da sobreposição de ações e também por causa das condições de captura de vídeo que tem diversos ângulos, anúncios e cortes de câmera. Para superar esses desafios, a Rede Neural Convolucional (CNN) e a Rede Neural Recorrente (RNN) são utilizadas em conjunto para classificar diferentes comprimentos de vídeos de ações do futebol.Utiliza-se uma CNN, InceptionV3, pré-treinada para a extração de características espaciais. Posteriormente, uma RNN, Unidades Recorrentes Fechadas (GRU), para o reconhecimento de sequências, que trata a dependência temporal e resolve o problema do desaparecimento de gradiente. Por fim, a camada Softmax atribui probabilidades decimais a cada classe. Chega-se a uma configuração de rede, com quatro ações classificáveis, e uma acurácia de 94%.","PeriodicalId":138408,"journal":{"name":"Revista Brasileira de Computação Aplicada","volume":"19 1","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-11-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Categorização de ações em vídeos de futebol utilizando uma arquitetura CNN-RNN\",\"authors\":\"Matheus de Sousa Macedo, D. Adamatti\",\"doi\":\"10.5335/rbca.v15i3.14743\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"A extração de informações semânticas de vídeos de futebol tem diversas aplicações, como publicidade contextual, resumo de partidas e extração de destaques. As aplicações de análise de vídeos de futebol podem ser categorizadas em Detecção de Ações, Rastreamento de jogadores e/ou bola e Análise de jogo. Utiliza-se como base de dados uma versão modificadado Dataset SoccerNet-v2, afim de reduzir o Poder Computacional mínimo exigido. A tarefa de Detecção de Ações torna-se difícil por conta da sobreposição de ações e também por causa das condições de captura de vídeo que tem diversos ângulos, anúncios e cortes de câmera. Para superar esses desafios, a Rede Neural Convolucional (CNN) e a Rede Neural Recorrente (RNN) são utilizadas em conjunto para classificar diferentes comprimentos de vídeos de ações do futebol.Utiliza-se uma CNN, InceptionV3, pré-treinada para a extração de características espaciais. Posteriormente, uma RNN, Unidades Recorrentes Fechadas (GRU), para o reconhecimento de sequências, que trata a dependência temporal e resolve o problema do desaparecimento de gradiente. Por fim, a camada Softmax atribui probabilidades decimais a cada classe. Chega-se a uma configuração de rede, com quatro ações classificáveis, e uma acurácia de 94%.\",\"PeriodicalId\":138408,\"journal\":{\"name\":\"Revista Brasileira de Computação Aplicada\",\"volume\":\"19 1\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-11-27\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Revista Brasileira de Computação Aplicada\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.5335/rbca.v15i3.14743\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Brasileira de Computação Aplicada","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5335/rbca.v15i3.14743","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
Categorização de ações em vídeos de futebol utilizando uma arquitetura CNN-RNN
A extração de informações semânticas de vídeos de futebol tem diversas aplicações, como publicidade contextual, resumo de partidas e extração de destaques. As aplicações de análise de vídeos de futebol podem ser categorizadas em Detecção de Ações, Rastreamento de jogadores e/ou bola e Análise de jogo. Utiliza-se como base de dados uma versão modificadado Dataset SoccerNet-v2, afim de reduzir o Poder Computacional mínimo exigido. A tarefa de Detecção de Ações torna-se difícil por conta da sobreposição de ações e também por causa das condições de captura de vídeo que tem diversos ângulos, anúncios e cortes de câmera. Para superar esses desafios, a Rede Neural Convolucional (CNN) e a Rede Neural Recorrente (RNN) são utilizadas em conjunto para classificar diferentes comprimentos de vídeos de ações do futebol.Utiliza-se uma CNN, InceptionV3, pré-treinada para a extração de características espaciais. Posteriormente, uma RNN, Unidades Recorrentes Fechadas (GRU), para o reconhecimento de sequências, que trata a dependência temporal e resolve o problema do desaparecimento de gradiente. Por fim, a camada Softmax atribui probabilidades decimais a cada classe. Chega-se a uma configuração de rede, com quatro ações classificáveis, e uma acurácia de 94%.