Spatial-aware Speaker Diarization for Multi-channel Multi-party Meeting

Interspeech Pub Date : 2022-09-18 DOI:10.21437/Interspeech.2022-11412

Jie Wang, Yuji Liu, Binling Wang, Yiming Zhi, Song Li, Shipeng Xia, Jiayang Zhang, Feng Tong, Lin Li, Q. Hong

引用次数: 6

Abstract

This paper describes a spatial-aware speaker diarization system for the multi-channel multi-party meeting. The diarization system obtains direction information of speaker by microphone array. Speaker spatial embedding is generated by xvector and s-vector derived from superdirective beamforming (SDB) which makes the embedding more robust. Specifically, we propose a novel multi-channel sequence-to-sequence neural network architecture named discriminative multi-stream neural network (DMSNet) which consists of attention superdirective beamforming (ASDB) block and Conformer encoder. The proposed ASDB is a self-adapted channel-wise block that extracts the latent spatial features of array audios by modeling interdependencies between channels. We explore DMSNet to address overlapped speech problem on multi-channel audio and achieve 93.53% accuracy on evaluation set. By performing DMSNet based overlapped speech detection (OSD) module, the diarization error rate (DER) of cluster-based diarization system decrease significantly from 13.45% to 7.64%.

查看原文本刊更多论文

基于空间感知的多渠道多方会议发言人日记

本文描述了一个用于多渠道多党会议的空间感知说话人日记系统。二值化系统通过麦克风阵列获取说话人的方位信息。说话人空间嵌入是由超定向波束形成（SDB）导出的x矢量和s矢量生成的，这使得嵌入更加鲁棒。具体来说，我们提出了一种新的多通道序列到序列神经网络架构，称为判别多流神经网络（DMSNet），它由注意力超定向波束形成（ASDB）块和保形编码器组成。所提出的ASDB是一个自适应的通道块，通过建模通道之间的相互依赖性来提取阵列音频的潜在空间特征。我们探索DMSNet来解决多声道音频上的重叠语音问题，并在评估集上达到93.53%的准确率。通过执行基于DMSNet的重叠语音检测（OSD）模块，基于聚类的二元化系统的二元错误率（DER）从13.45%显著降低到7.64%。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Interspeech

自引率

0.00%

发文量