One Billion Audio Sounds from GPU-Enabled Modular Synthesis

2021 24th International Conference on Digital Audio Effects (DAFx) Pub Date : 2021-04-27 DOI:10.23919/DAFx51585.2021.9768246

Joseph P. Turian, Jordie Shier, G. Tzanetakis, K. McNally, Max Henry

引用次数: 15

Abstract

We release synth1B1, a multi-modal audio corpus consisting of 1 billion 4-second synthesized sounds, paired with the synthesis parameters used to generate them. The dataset is 100x larger than any audio dataset in the literature. We also introduce torchsynth, an open source modular synthesizer that generates the synth 1B1 samples on-the-fly at 16200x faster than real-time (714MHz) on a single GPU. Finally, we release two new audio datasets: FM synth timbre and subtractive synth pitch. Using these datasets, we demonstrate new rank-based evaluation criteria for existing audio representations. Finally, we propose a novel approach to synthesizer hyperparameter optimization.

查看原文本刊更多论文

十亿音频声音从gpu启用模块化合成

我们发布了synth1B1，这是一个多模态音频语料库，由10亿个4秒合成声音组成，并与用于生成它们的合成参数配对。该数据集比文献中任何音频数据集都大100倍。我们还介绍了torchsynth，一个开源的模块化合成器，在单个GPU上以比实时(714MHz)快16200倍的速度生成synth 1B1样本。最后，我们发布了两个新的音频数据集:FM合成器音色和减法合成器音高。使用这些数据集，我们展示了现有音频表示的新的基于排名的评估标准。最后，我们提出了一种新的合成器超参数优化方法。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

2021 24th International Conference on Digital Audio Effects (DAFx)

自引率

0.00%

发文量