ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)最新文献

Tail Classes Matter: Long-Tailed Object Detection Revisited 尾类很重要长尾物体探测再探究

ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Pub Date : 2024-04-14 DOI: 10.1109/icassp48485.2024.10446683

Yinglu Zhang, Chenbo Zhang, Lu Zhang, Tianying Liu, J. Guan, Xinkai Liang, Jiajia Zhao, Shuigeng Zhou

引用次数: 0

Taming Prompt-Based Data Augmentation for Long-Tailed Extreme Multi-Label Text Classification 驯服基于提示的数据增强，实现长尾极端多标签文本分类

ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Pub Date : 2024-04-14 DOI: 10.1109/icassp48485.2024.10446315

Pengyu Xu, Mingyang Song, Ziyi Li, Sijin Lu, Liping Jing, Jian Yu

引用次数: 0

Invariant Motion Representation Learning for 3D Talking Face Synthesis 用于 3D 有声人脸合成的不变运动表示学习

ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Pub Date : 2024-04-14 DOI: 10.1109/icassp48485.2024.10446379

Jiyuan Liu, Wenping Wei, Zhendong Li, Guanfeng Li, Hao Liu

引用次数: 0

Stereophonic Music Source Separation with Spatially-Informed Bridging Band-Split Network 利用空间信息桥接分带网络进行立体声音源分离

ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Pub Date : 2024-04-14 DOI: 10.1109/icassp48485.2024.10446287

Yichen Yang, Haowen Li, Xianrui Wang, Wen Zhang, Shoji Makino, Jingdong Chen

引用次数: 0

Multi-Layer Relation Knowledge Distillation For Fingerprint Restoration 多层关系知识提炼用于指纹修复

ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Pub Date : 2024-04-14 DOI: 10.1109/icassp48485.2024.10446081

Yu-Min Chiu, Ching-Te Chiu, Dao-Heng Luo

引用次数: 0

Comparing data-Driven and Handcrafted Features for Dimensional Emotion Recognition 比较数据驱动和手工制作的维度情感识别特征

ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Pub Date : 2024-04-14 DOI: 10.1109/icassp48485.2024.10446134

Bogdan Vlasenko, Sargam Vyas, Mathew Magimai.-Doss

{"title":"Comparing data-Driven and Handcrafted Features for Dimensional Emotion Recognition","authors":"Bogdan Vlasenko, Sargam Vyas, Mathew Magimai.-Doss","doi":"10.1109/icassp48485.2024.10446134","DOIUrl":"https://doi.org/10.1109/icassp48485.2024.10446134","url":null,"abstract":"Speech Emotion Recognition (SER) has garnered significant attention over the past two decades. In the early stages of SER technology, ’brute force’-based techniques led to a significant expansion in knowledge-based acoustic feature representation (FR) for modeling sparse emotional data. However, as deep learning techniques have become more powerful, their direct application has been limited by the scarcity of well-annotated emotional data. As a result, pre-trained neural embeddings on large speech corpora have gained popularity for SER tasks. These embeddings leverage existing transfer learning methods suitable for general-purpose self-supervised learning (SSL) representations. Recent studies on downstream SSL techniques for dimensional SER have shown promising results. In this research, we aim to evaluate the emotion-discriminative characteristics of neural embeddings in general cases (out-of-domain) and when fine-tuned for SER (in-domain). Given that most SSL techniques are pre-trained primarily on English speech, we plan to use speech emotion corpora in both language-matched and mismatched conditions. We will assess the discriminative characteristics of both handcrafted and standalone neural embeddings as FRs.","PeriodicalId":517764,"journal":{"name":"ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","volume":"62 8","pages":""},"PeriodicalIF":0.0,"publicationDate":"2024-04-14","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"140704868","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Quantifying The Effect Of Simulator-Based Data Augmentation For Speech Recognition On Augmented Reality Glasses 量化基于模拟器的数据增强对增强现实眼镜语音识别的影响

ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Pub Date : 2024-04-14 DOI: 10.1109/icassp48485.2024.10446544

Riku Arakawa, Mathieu Parvaix, Chiong Lai, Hakan Erdogan, Alex Olwal

引用次数: 0

Deep Residual W-Unit Learning with Semantic Embedding for Automatic Pulmonary CT Artery-Vein Separation 利用语义嵌入进行深度残差W单元学习，实现肺部CT动脉-静脉自动分离

ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Pub Date : 2024-04-14 DOI: 10.1109/icassp48485.2024.10448498

Hao Qi, Ming Wu, Sunkui Ke, Xiangxing Chen, Hui-Qing Zeng, Yinran Chen, Xióngbiao Luó

引用次数: 0

NERF-GAZE: A Head-Eye Redirection Parametric Model for Gaze Estimation NERF-GAZE：用于凝视估计的头眼重定向参数模型

ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Pub Date : 2024-04-14 DOI: 10.1109/icassp48485.2024.10446677

Pengwei Yin, Jingjing Wang, Jiawu Dai, Xiaojun Wu

引用次数: 1

DONE: Dynamic Neural Representation Via Hyperplane Neural ODE DONE：通过超平面神经 ODE 进行动态神经表征

ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Pub Date : 2024-04-14 DOI: 10.1109/icassp48485.2024.10446247

Jiaxu Wang, Bo Xu, Hao Cheng, Renjing Xu

引用次数: 0