Deep Learning and Mel-spectrograms for Physica Violence Detection in Audio

Anais do XVIII Encontro Nacional de Inteligência Artificial e Computacional (ENIAC 2021) Pub Date : 2021-11-29 DOI:10.5753/eniac.2021.18259

Tiago Lacerda, Pericles Miranda, André Câmara, Ana Paula C. Furtado

引用次数: 1

Abstract

Há um crescente interesse em sistemas de detecção de violência de forma automática por meio do áudio ambiente. Neste trabalho, construímos e avaliamos 4 classificadores com essa proposta. Porém, em vez de processar diretamente os sinais de áudio, nós os convertemos para imagens, conhecidas como mel-spectrograms, e em seguida utilizamos Redes Neurais Convolucionais (CNN) para tratar como um problema de classificação de imagens utilizando-se de redes pre-treinadas neste contexto. Testou-se as arquiteturas Inception v3, VGG-16, MobileNet v2 e ResNet152 v2, tendo o classificador oriundo da arquitetura MobileNet obtido os melhores resultados de classificação, quando avaliado no HEAR Dataset, criado para a realização desta pesquisa.

查看原文本刊更多论文

基于深度学习和mel -谱图的音频物理暴力检测

人们对通过环境音频自动检测暴力的系统越来越感兴趣。在这项工作中，我们构建并评估了4个分类器。然而，我们没有直接处理音频信号，而是将它们转换成图像，称为mel-spectrogram，然后使用卷积神经网络(CNN)来处理图像分类问题，在这种情况下使用预先训练的网络。我们测试了Inception v3, VGG-16, MobileNet v2和ResNet152 v2架构，在为本研究创建的HEAR数据集中，来自MobileNet架构的分类器获得了最佳的分类结果。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Anais do XVIII Encontro Nacional de Inteligência Artificial e Computacional (ENIAC 2021)

自引率

0.00%

发文量