{"title":"Transferencia de estilo entre audios mediante redes neuronales","authors":"H. Ordiales, G. M. Barrera","doi":"10.54789/reddi.4.1.6","DOIUrl":null,"url":null,"abstract":"Este trabajo tiene como objetivo aplicar en archivos de audio las tecnicas de procesamiento con redes neuronales desarrolladas para la transferencia de estilo en imagenes. En particular, aquellas que son de reciente publicacion y dentro de su arquitectura utilizan una o mas capas de redes neuronales convolucionales. Para ello, se construyen representaciones de la senal audible en matrices de estructura similar a las que normalmente se utilizan para procesar imagenes. Se evaluan diferentes aproximaciones al problema utilizando tecnicas de analisis/sintesis como la transformada de tiempo corto de Fourier (STFT) y la descomposicion de la senal de entrada en sinusoides y residuo, derivada del Spectral Modelling Synthesis, historicamente utilizado en senales de voz. Aunque la definicion de estilo puede ser subjetiva, se ensayan algunas aproximaciones en su definicion y reconocimiento. Para esto, se desarrollan e implementan diferentes programas en Python utilizando el framework TensorFlow, pensado para construir y entrenar redes neuronales. El resultado es un enfoque diferente para la aplicacion de efectos digitales en senales de audio.","PeriodicalId":426591,"journal":{"name":"ReDDI: Revista Digital del Departamento de Ingeniería","volume":"1 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2019-08-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"ReDDI: Revista Digital del Departamento de Ingeniería","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.54789/reddi.4.1.6","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Este trabajo tiene como objetivo aplicar en archivos de audio las tecnicas de procesamiento con redes neuronales desarrolladas para la transferencia de estilo en imagenes. En particular, aquellas que son de reciente publicacion y dentro de su arquitectura utilizan una o mas capas de redes neuronales convolucionales. Para ello, se construyen representaciones de la senal audible en matrices de estructura similar a las que normalmente se utilizan para procesar imagenes. Se evaluan diferentes aproximaciones al problema utilizando tecnicas de analisis/sintesis como la transformada de tiempo corto de Fourier (STFT) y la descomposicion de la senal de entrada en sinusoides y residuo, derivada del Spectral Modelling Synthesis, historicamente utilizado en senales de voz. Aunque la definicion de estilo puede ser subjetiva, se ensayan algunas aproximaciones en su definicion y reconocimiento. Para esto, se desarrollan e implementan diferentes programas en Python utilizando el framework TensorFlow, pensado para construir y entrenar redes neuronales. El resultado es un enfoque diferente para la aplicacion de efectos digitales en senales de audio.