基本信息
- 性 别: 男
- 民 族: 汉
- 出生地: 安徽
- 职 位:
- 职 称: 教授
- 最高学历: 博士
- 办公电话:
- 个人邮箱:
- 地址:
个人概况:
理学博士,北京建筑大学教授、博士生导师;中科院“百人计划”入选者;2006年在瑞士联邦工学院(洛桑)获得理学博士学位。曾任职中科院声学研究所研究员/博士生导师,担任声纹识别、语种识别与音乐信号处理方向学术带头人。研究成果在国家相关部门与全国多个省(区/直辖市)推广应用;获得新疆自治区科技进步一等奖1项,中科院科技杰出成就奖1项。
主持承担了包括中科院战略科技先导专项、国家自然科学基金、国防科技创新基金、国家信息安全计划、国家重点研发计划等项目共20余项,发表学术论文50余篇(其中SCI/EI检索36篇),申请发明专利16项(其中已授权11项)。培养研究生21名(其中博士生16名、硕士生5名)。
教育经历:
2001.05-2006.10 瑞士联邦工学院(洛桑),获理学博士学位
1994.09-1997.07 中科院微电子所微电子专业,获硕士学位
1990.09-1994.07 北京理工大学微电子专业,获学士学位
工作经历:
2019.11-目前 北京建筑大学beat365,教授
2010.10-2019.10 中科院声学所,研究员
2009.10-2010.10 中科院声学所,副研究员
2007.06-2009.08 伦敦大学玛丽皇后学院,高级研究人员
2001.05-2007.05 瑞士联邦工学院(洛桑),助理研究员
2000.10-2001.03 摩托罗拉(中国),软件工程师
1999.10-2000.09 安捷伦软件公司(中国),研究工程师
1997.9-1999.09 中国华大集成电路设计中心,IC设计工程师
荣誉称号:
中国科学院“百人计划”入选者(2010)
研究方向:
(1)机器学习
(2)语音及音乐信号处理
(3)建筑声学
科研项目:
(1) 短时语音声纹识别技术研究 国家重点研发计划 2016-2019
(2) 应用于钢琴计算机辅助教学的自动音乐记谱技术研究 国家自然科学基金 2011-2013
(3) 广播音频中音乐信号与语音信号的检测与分割 国家自然科学基金 2012-2014
(4) 音视频分离检索 中科院-安全部战略合作基金 2015-2016
(5) 广播音频数字水印与内容监管关键技术研究 中科院战略科技先导专项 2015-2017
(6) 语音关键技术研究 国家242信息安全计划 2015-2017
(7) 特定人识别系统研究 国家242信息安全计划 2014-2015
科研获奖:
2013年 语音自动识别 获新疆自治区科技进步一等奖
2014年 基于海云计算的智能处理系统研究 中科院科技杰出成就奖
知识产权:
1 ZL201210555152.9 一种说话人识别方法 发明 第一 授权
2 ZL201210560716.8 一种用于语种识别的语种模型的训练方法及系统 发明 第一 授权
3 ZL201210587263.8 一种基于共有鉴别性子空间映射的语种识别方法及装置 发明 第一 授权
4 ZL201210122443.9 一种基于音视频信息的自动音乐记谱方法及系统 发明 第一 授权
5 ZL2014103341243 一种说话人识别方法 发明 第一 授权
6 ZL201410336650.3 一种语种识别模型的训练方法及语种识别方法 发明 第一 授权
7 ZL2014103256096 一种敲击弦乐器的音乐多音符估计方法及系统 发明 第一 授权
8 ZL201410459009.9 一种基于概率线性鉴别分析模型的说话人聚类方法及系统 发明 第三 授权
9 ZL 2015102365688 短时特定音频检测模型生成与检测方法 发明 第八 授权
10 ZL201510280471.7
一种应用于语种识别的鉴别性特征提取方法 发明 第二 授权
11 ZL 201510272422.9 一种应用于说话人识别的噪声消除方法 发明 第六 授权
12 201610236672.1 一种应用于语种识别的短时语音时长扩展方法 发明 第一 申请
13 2018109167569 一种基于降噪自动编码器的语种识别分类方法及装置 发明 第一 申请
14 201810039718X 一种随机数字口令相关的说话人识别方法及装置 发明 第一 申请
15 2018109167573 一种基于条件生成式对抗网络的语种识别分类方法 发明 第一 申请
16 201710911340.3 基于遗传算法优化模型参数的音频带宽扩展方法及系统 发明 第六 申请
招生信息:
每年可以招收博士生1人、硕士生2-3人。
桃李满天:
已培养博士生人16人、硕士生6人。其中,指导毕业博士生情况:
(1)万玉龙:2014年毕业于中科院声学所,阿里巴巴(北京)
(2)黄厚军:2016年毕业于中科院声学所,思必驰科技有限公司(苏州)
(3)张健 : 2017年毕业于中科院信工所,华为(北京)
(4)许云飞:2015年毕业于中科院声学所,百度(北京)
(5)王宪亮,2015年毕业于中科院声学所,阿里巴巴(北京)
(6)杨海, 2013年毕业于中科院声学所,华东理工大学,副研究员
(7)梁春燕,2014年毕业于中科院声学所,山东理工大学,讲师
(8)王琪,2018年毕业于中科院声学所,北京工业大学,讲师
(9)杨金超,2012年毕业于中科院声学所,中国电子科技集团29所
(10)姚升余,2019年毕业于中科院声学所,搜狗(北京)
学术论文:
[1] Music Onset Detection Based on Resonator Time-frequency Image(2008). IEEE Transactions On Audio, Speech And Language Processing, vol. 16, num. 8, 2008, p. 1685-1695 . (SCI,IF=3.531)
[2] A Computationally Efficient Method for Polyphonic Pitch Estimation(2009), EURASIP Journal on Advances in Signal Processing, Volume 2009 , Article ID 729494, 11 pages. (SCI,IF=1.749)
[3] Polyphonic Piano Transcription with a Note-Based Music Language Model(2018), in: Applied Sciences, 8(3),470. (SCI, IF=2.231)
[4 ] A Two-Stage Approach to Note-Level Transcription of a Specific Piano (2017), in: Applied Sciences, 7(9),901. (SCI,IF=2.231)
[5] Window-Dominant Signal Subspace Methods for Multiple Short-Term Speech Source Localization (2017), in: IEEE/ACM Transactions on Audio, Speech, and Language Processing, 25:4(731 - 744). (SCI,IF=3.531)
[6] Phonotactic language recognition using dynamic pronunciation and language branch discriminative information (2015), in: Speech Communication, 75(50 - 61) (SCI,IF=1.661)
[7] Discriminatively learned network for i-vector based speaker recognition(2018), in: IET Electronics Letters, 54:22(1302-1304) . (SCI,IF=1.343)
[8] Speaker-Phonetic I-Vector Modeling for Text-Dependent Speaker Verification with Random Digit Strings (2019), in: IEICE TRANSACTIONS on Information and Systems, .E102-D:2(346-354) . (SCI,IF=0.576)
[9] Robust speaker recognition using a library of cross-domain variation compensation transforms (2016), in: IET Electronics Letters, 52:4(321-323) . (SCI,IF=1.343)
[10] Cross-domain variation compensation for robust speaker verification (2015), in: IET Electronics Letters, 51:21(1706-1707) . (SCI,IF=1.343)
[11] Feature recovery for noise-robust speaker verification (2015), in: IET Electronics Letters, 51:18(1459-1461) . (SCI,IF=1.343)
[12] Voice biometrics using linear Gaussian model(2014), in IET Biometrics ,3:1(9-15), 2014 (SCI, IF=2.092)
[13] A General Bayesian Model for Speaker Verification (2016),in Chinese Journal of Electronics, 25:6,(1045-1051). (SCI, IF=0.945)
[14] PLF Optimization for Target Language Detection (2017),in Chinese Journal of Electronics, 26:1(118-121). (SCI, IF=0.945)
[15] Speaker Recognition Using Sparse Probabilistic Linear Discriminant Analysis(2013),in IEICE TRANS. fundmentals of Electronics Communications and Computer Sciences , E96–A:10(1938-1945) . (SCI, IF=0.368)
[16] Automatic Piano Music Transcription Using Audio-Visual Features(2015),in Chinese Journal of Electronics, 24:3,(596-603). (SCI, IF=0.945)
[17] Modeling prosodic features with probabilistic linear discriminant analysis for speaker verification(2014),in Shengxue Xuebao/Acta Acustica,40:1(28-33). (EI)
[18] Gaussian PLDA for Speaker Verification and Joint Estimation(2014) , in Acta Automatica Sinica, 40(6): 1068-1074. (EI)
[19] Enhanced Voice Activity Detection based on Automatic Segmentation and Event Classification (2014) , in Journal of Computational Information Systems,10:10(4169-4177). (EI)
[20] Language recognition based on SVM 1 vs.1 classification(2013), in Qinghua Daxue Xuebao/Journal of Tsinghua University,53:6(808:812). (EI)
[21] Fast and precise automatic music/speech segmentation(2013), in Qinghua Daxue Xuebao/Journal of Tsinghua University, 35:2(878-882). (EI )
[22] 应用于短时语音语种识别的时长扩展方法(2018), 清华大学学报(自然科学版) 58(3): 254-259。(EI)
[23] 应用于语种识别的加权音素对数似然比特征(2017), 清华大学学报(自然科学版)57(10): 1038-1041。(EI)
[24] 一个快速自动音乐记谱方法, 声学学报, 第35卷, 第2期, 2010, p.282-287(EI)
[25] Semi-supervised local Fisher discriminant analysis for speaker verification(2014), in Advances in Information Sciences and Service Sciences, 6(6): 1-11. (EI)
[26] Language recognition system using language branch discriminative information(2014), in Proceeding of Acoustics, Speech and Signal Processing. ICASSP 2014(5327-5331). (EI )
[27] Characterization Vector Extraction Using Neural Network for Speaker Recognition, in Proceedings of International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC 2016 ), 1(355-358). (EI )
[28] Robust multiple speech source localization based on phase difference regression, in Proceedings of International Symposium on Chinese Spoken Language Processing (2017). ( EI )
[29] Language-pair scoring method based on SVM for language recognition(2013),in Proceeding of Applied Mechanics and Materials, 333(737-741). (EI )
[30] Automatic Transcription of Piano Music Using Audio-Vision Fusion(2013), in Proceeding of Applied Mechanics and Materials, the 2nd International Conference on Measurement, Instrumentation and Automation, 333 :335 ( 742-748). (EI )
[31] Multipitch Onset Detection Via Temporal Segmentation And Segmental Analysis(2014) , in Proceeding of International Congress on Sound and Vibration, 2(1637:1644). (EI)
[32] Direction-of-Arrival Estimation of Multiple Speakers Using a Planar Array (2014), in Proceeding of INTERSPEECH 2014, pages 2223-2227 (EI)
[33] A Real-Time Polyphonic Music Transcription System, Proceedings of the Fourth Music Information Retrieval Evaluation eXchange (MIREX), p.1-4, Philadelphia, USA, September 14-18, 2008. ( EI )
[34] A New Time-frequency Representations for Music Signal Analysis, International Conference on Information Sciences, Signal Processing and its Applications, February, 2007. ( EI)
[35] Polyphonic Music Analysis by Signal Processing and Support Vector Machines, 20-22 September 2005, Proceedings of the 8th Conference on Digital Audio Effects, 2005. ( 第一作者, EI)
[36] A multi-timbre chord/harmony analyzer based on signal processing and neural networks, 20-22 September 2005, 2004 IEEE 6th Workshop on Multimedia Signal Processing, p 219-222, 2004.(EI)
[38] Vowel based neural networks for speaker verification (2014), in Proceeding of 2014 International Academic Conference on The Information Science and Communication Engineering (ISCE2014), pages 89-97. (ISTP)
[39] A new feature for speech\music discrimination, in Proceeding of 2014 International Academic Conference on The Information Science and Communication Engineering (ISCE2014), Hunan, China, 2014, pages 133-137. (ISTP)
[40] Short-term Specific Audio Detection(2015), in Proceedings of International Symposium of Computer Application an Information Technology.
[41] Music Onset Detection Combining Energy-based and Pitch-Based Approaches, First Place Award, Third Music Information Retrieval Evaluation eXchange (MIREX), Vienna, Austria, 26 September 2007.
[42] 基于SVM一对一分类的语种识别方法(2013) , 全国人机语音通讯学术会议, 2013: 808-812.
[43] 基于PLDA的多信道多语音说话人确认研究(2014) , 网络新媒体技术, 3(1): 13-19.
[44] 基于SVM一对多得分规整的语种识别方法(2015),网络新媒体技术,2015:6(27-30).
[45] 基于语支鉴别性的音素相关语种识别方法(2014), 网络新媒体技术. 2014:4(40-43).
[46] 基于非负矩阵分解的钢琴多音符估计(2014) , 网络新媒体技术, 3(5): 23-27.
出版书籍:
[1] Ruohua Zhou* and Joshua D. Reiss, Chapter 12: Music Onset Detection, In Machine Audition: Principles, Algorithms and Systems. Book Published by IGI Global. ISBN-13, 978-1615209194, July, 2010.