Transferencia de estilo entre audios mediante redes neuronales

H. Ordiales, G. M. Barrera
{"title":"Transferencia de estilo entre audios mediante redes neuronales","authors":"H. Ordiales, G. M. Barrera","doi":"10.54789/reddi.4.1.6","DOIUrl":null,"url":null,"abstract":"Este trabajo tiene como objetivo aplicar en archivos de audio las tecnicas de procesamiento con redes neuronales desarrolladas para la transferencia de estilo en imagenes. En particular, aquellas que son de reciente publicacion y dentro de su arquitectura utilizan una o mas capas de redes neuronales convolucionales. Para ello, se construyen representaciones de la senal audible en matrices de estructura similar a las que normalmente se utilizan para procesar imagenes. Se evaluan diferentes aproximaciones al problema utilizando tecnicas de analisis/sintesis como la transformada de tiempo corto de Fourier (STFT) y la descomposicion de la senal de entrada en sinusoides y residuo, derivada del Spectral Modelling Synthesis, historicamente utilizado en senales de voz.  Aunque la definicion de estilo puede ser subjetiva, se ensayan algunas aproximaciones en su definicion y reconocimiento. Para esto, se desarrollan e implementan diferentes programas en Python utilizando el framework TensorFlow, pensado para construir y entrenar redes neuronales. El resultado es un enfoque diferente para la aplicacion de efectos digitales en senales de audio.","PeriodicalId":426591,"journal":{"name":"ReDDI: Revista Digital del Departamento de Ingeniería","volume":"1 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2019-08-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"ReDDI: Revista Digital del Departamento de Ingeniería","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.54789/reddi.4.1.6","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

Este trabajo tiene como objetivo aplicar en archivos de audio las tecnicas de procesamiento con redes neuronales desarrolladas para la transferencia de estilo en imagenes. En particular, aquellas que son de reciente publicacion y dentro de su arquitectura utilizan una o mas capas de redes neuronales convolucionales. Para ello, se construyen representaciones de la senal audible en matrices de estructura similar a las que normalmente se utilizan para procesar imagenes. Se evaluan diferentes aproximaciones al problema utilizando tecnicas de analisis/sintesis como la transformada de tiempo corto de Fourier (STFT) y la descomposicion de la senal de entrada en sinusoides y residuo, derivada del Spectral Modelling Synthesis, historicamente utilizado en senales de voz.  Aunque la definicion de estilo puede ser subjetiva, se ensayan algunas aproximaciones en su definicion y reconocimiento. Para esto, se desarrollan e implementan diferentes programas en Python utilizando el framework TensorFlow, pensado para construir y entrenar redes neuronales. El resultado es un enfoque diferente para la aplicacion de efectos digitales en senales de audio.
通过神经网络在音频之间传递风格
本文的目的是将神经网络处理技术应用于音频文件,这些技术是为图像风格传输而开发的。特别是那些最近出版的,在其架构内使用一层或多层卷积神经网络。为此,听觉信号的表示是在结构类似于通常用于处理图像的矩阵中构建的。使用分析/合成技术,如短时间傅里叶变换(STFT)和将输入信号分解为正弦和残差,从频谱建模合成中得到,历史上用于语音信号。虽然风格的定义可能是主观的,但在它的定义和识别中尝试了一些方法。为此,我们使用TensorFlow框架在Python中开发和实现了不同的程序,该框架旨在构建和训练神经网络。结果是一种不同的方法来应用数字效果在音频信号。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信