个人简介
招生专业
070206-声学
招生方向
多语言语音识别
智能水声信号处理
教育背景
2011-09--2014-07 中国科学院声学研究所 博士
2008-09--2011-07 清华大学电子工程系 硕士
2004-09--2008-07 清华大学电子工程系 学士
工作简历
2019-01~现在, 中国科学院声学研究所, 研究员
2016-12~2018-12,中国科学院声学研究所, 副研究员
2014-07~2016-12,中国科学院声学研究所, 助理研究员
2011-09~2014-07,中国科学院声学研究所, 博士
2008-09~2011-07,清华大学电子工程系, 硕士
2004-09~2008-07,清华大学电子工程系, 学士
奖励信息
(1) 智能语音能力平台关键技术及其在智能客服行业应用, 二等奖, 省级, 2019
专利成果
( 1 ) 一种声学模型建立方法及基于该模型的语音解码方法, 2013, 第 2 作者, 专利号: 2013105171492
( 2 ) 一种黏着语语音识别方法及系统, 2012, 第 2 作者, 专利号: 2012105516760
( 3 ) 一种基于音频模板的语音关键词检索方法, 2015, 第 1 作者, 专利号: 2015102665536
( 4 ) 一种音频关键词模板的筛选和优化方法, 2015, 第 1 作者, 专利号: 2015108828058
( 5 ) 一种基于混合声学模型的语音识别系统及方法, 2017, 第 1 作者, 专利号: 2017110595924
( 6 ) 一种全音素框架下的通用语音唤醒识别方法及系统, 2017, 第 1 作者, 专利号: 2017100020973
( 7 ) 一种水下声源定位方法, 2017, 第 1 作者, 专利号: 2017114540530
( 8 ) 一种基于迁移神经网络声学模型的语音识别系统及方法, 2018, 第 1 作者, 专利号: 2018100775569
( 9 ) 一种基于窗口输入的双向回馈神经网络的语音识别方法, 2018, 第 1 作者, 专利号: 2018112423984
( 10 ) 基于语言种类和语音内容协同分类的多语言语音识别方法, 2018, 第 1 作者, 专利号: 2018109740495
( 11 ) 一种基于深度学习的水下多声源定位及系统, 2018, 第 1 作者, 专利号: 2018115640070
( 12 ) 一种基于深度学习的多声源测向方法及系统, 2019, 第 1 作者, 专利号: 2019106611463
( 13 ) 一种基于条件对抗神经网络的水下目标数据扩增方法及系统, 2019, 第 1 作者, 专利号: 2019107743883
( 14 ) 一种多语言连续语音流语音内容识别方法及系统, 2019, 第 1 作者, 专利号: 2019107829812
( 15 ) 一种基于类内类间距离进行无监督特征优化的水下目标识别方法, 2019, 第 1 作者, 专利号: 201911266932X
( 16 ) 一种用于深度学习水下目标分类识别的小波线谱特征提取方法, 2019, 第 1 作者, 专利号: 2019113425271
科研项目
( 1 ) 面向多语言的层次化和结构化声学建模方法与系统集成, 参与, 国家级, 2016-01--2020-12
( 2 ) “语音地图”构建的理论与技术研究, 参与, 国家级, 2016-01--2018-12
( 3 ) 语言无关关键词检索技术研究, 主持, 部委级, 2017-01--2018-12
( 4 ) 基于深度学习的水下目标定位与跟踪技术研究, 主持, 市地级, 2016-12--2019-12
( 5 ) 基于大数据分析的水下目标定位与识别系统构架研究, 参与, 市地级, 2017-07--2018-12
( 6 ) 面向北京地区多样化语言的语音关键词检索技术, 主持, 省级, 2015-06--2016-09
( 7 ) ****技术研究, 参与, 国家级, 2016-12--2019-11
( 8 ) 多语言引擎构建, 主持, 国家级, 2019-10--2021-10
( 9 ) 基于端到端的多语言语音内容与语言种类联合识别技术的研究, 主持, 国家级, 2020-01--2022-12
参与会议
(1)Multiple Temporal Scales Based Speaker Embeddings Learning for Text-dependent Speaker Recognition 王文超,张一珂,徐及,颜永红 2019-05-12
(2)Deep neural network for source localization using underwater horizontal circular array 2018-05-31
(3)EFFECTIVE UTILIZATION OF MULTIPLE EXAMPLES IN QUERY-BY-EXAMPLE SPOKEN TERM DETECTION 2016-03-23
近期论文
查看导师新发文章
(温馨提示:请注意重名现象,建议点开原文通过作者单位确认)
(1) End-to-End Multilingual Speech Recognition System with Language Supervision Training, IEICE Transactions on Information and Systems, 2020, 第 2 作者
(2) 深度学习在水下目标被动识别中的应用进展, 信号处理, 2019, 第 1 作者
(3) Identity vector extraction using shared mixture of PLDA for short-time speaker recognition, Chinese Journal of Electronics, 2019, 第 2 作者
(4) Investigation of knowledge transfer approaches to improve the acoustic modeling of Vietnamese ASR system, IEEE/CAA Journal of Automatica Sinica, 2019, 第 2 作者
(5) Multiple Source Localization in a shallow water, Sensor, 2019, 第 2 作者
(6) 基于降噪自动编码器的语种特征补偿方法, 计算机研究与发展, 2019, 第 2 作者
(7) A Regression Approach to Speech Source Localization Exploiting Deep Neural Network, IEEE Fourth International Conference on Multimedia Big Data, 2019, 第 2 作者
(8) Automatic Speech Recognition System with Output-Gate Projected Gated Recurrent Unit, IEICE Transactions on Information and Systems, 2019, 第 3 作者
(9) MULTIPLE TEMPORAL SCALES BASED SPEAKER EMBEDDINGS LEARNING FOR TEXT-DEPENDENT SPEAKER RECOGNITION, International Conference on Acoustics, Speech and Signal Processing, 2019, 第 3 作者
(10) Feature analysis of passive underwater targets recognition based on deep neural network, oceans, 2019, 第 5 作者
(11) Data Augmentation using Conditional Generative Adversarial Network for Underwater Target Recognition, IEEE International Conference on Signal, Information and Data Processing, 2019, 第 3 作者
(12) 使用深度学习的多通道水下目标识别, 声学学报, 2019, 第 3 作者
(13) Source localization using deep neural networks in a shallow water environment, Journal of the Acoustical Society of America(JASA), 2018, 第 2 作者
(14) Deep neural network for source localization using underwater horizontal circular array, oceans, 2018, 第 2 作者
(15) A DEEP NEURAL NETWORK BASED METHOD OF SOURCE LOCALIZATION IN A SHALLOWWATER ENVIRONMENT, International Conference on Acoustics, Speech and Signal Processing, 2018, 第 2 作者
(16) Underwater target classification using deep learning, oceans, 2018, 第 3 作者
(17) Output-Gate Projected Gated Recurrent Unit for Speech Recognition, InterSpeech, 2018, 第 4 作者
(18) Multilingual Speech Recognition Training and Adaptation with Language-Specific Gate Units, International Symposium on Chinese Spoken Language Processing, 2018, 第 3 作者
(19) 基于降噪自动编码器的语种特征补偿方法, 计算机研究与发展, 2018, 第 2 作者
(20) 卷积神经网络声学模型的结构优化和加速计算, 重庆邮电大学学报, 2017, 第 2 作者
(21) An Improved Residual LSTM Architecture for Acoustic Modeling, International Conference on Computer and Communication Systems, 2017, 第 3 作者
(22) Agglutinative Language Speech Recognition Using Automatic Allophone Deriving, Chinese Journal of Electronics, 2016, 第 1 作者
(23) EFFECTIVE UTILIZATION OF MULTIPLE EXAMPLES IN QUERY-BY-EXAMPLE SPOKEN TERM DETECTION, International Conference on Acoustics, Speech and Signal Processing, 2016, 第 1 作者
(24) 基于状态后验概率的语音唤醒识别系统, 中国声学学会青年学术会议, 2016, 第 2 作者
(25) Multi-lingual unsupervised acoustic modeling using multi-task deep neural network under mismatch conditions, 8th IEEE International Conference on Communication Software and Networks, 2016, 第 2 作者
(26) 面向多语言的语音识别声学模型建模方法研究, 声学技术, 2015, 第 2 作者
(27) Efficient Acoustic Modeling Method for Unsupervised Speech Recognition using Multi-Task Deep Neural Network, 4th National Conference on Electrical, Electronics and Computer Engineering, 2015, 第 3 作者
(28) 面向多语言的语音识别声学模型建模方法研究, 中国声学学会青年学术会议, 2015, 第 2 作者
(29) An unsupervised adaptation method for deep neural network-based large vocabulary continuous speech recognition, Journal of Information & Computational Science, 2014, 第 3 作者
(30) RECURRENT NEURAL NETWORK LANGUAGE MODEL WITH VECTOR-SPACE WORD REPRESENTATIONS, The 21st International Congress on Sound and Vibration, 2014, 第 3 作者
(31) ON SPEEDING UP THE DEEP NEURAL NETWORK BASED SPEECH RECOGNITION SYSTEMS, The 21st International Congress on Sound and Vibration, 2014, 第 3 作者
(32) 面向口语统计语言模型建模的自动语料生成算法, 自动化学报, 2014, 第 3 作者
(33) Improving Korean LVCSR with Long-time Temporal Patterns and an Extended Phoneme Set, 4th Global Congress on Intelligent Systems, 2013, 第 1 作者
(34) Bilinear confidence warping based on coalescence type in Korean keyword spotting, The 21st International Congress on Sound and Vibration, 2013, 第 1 作者
(35) Exploiting articulatory features for pitch accent detection, Journal of Zhejiang University-Science C(Computers & Electronics), 2013, 第 2 作者
(36) IMPROVE LOW-RESOURCE NON-NATIVE MISPRONUNCIATION DETECTION WITH NATIVE SPEECH BY ARTICULATORY-BASED TANDEM FEATURE, IEEE China Summit & International Conference on Signal & Information Processing, 2013, 第 2 作者
(37) Multi-Stream Posterior Features and Combining Subspace Gmms for Low Resource LVCSR, Chinese Journal of Electronics, 2013, 第 2 作者
(38) Bottleneck Features based on Gammatone Frequency Cepstral Coefficients, InterSpeech, 2013, 第 2 作者
(39) Spoken Term Detection Based on Improved Index Structure, Journal of Software, 2013, 第 2 作者
(40) Long Mandarin Spoken Term Detection Using Two-Stage Search, Applied Mechanics and Materials, 2013, 第 2 作者
(41) An Improved Mandarin Voice Input System Using Recurrent Neural Network Language Model, Eighth International Conference on Computational Intelligence & Security, 2012, 第 2 作者
(42) Utilizing Auxiliary Data in Phoneme Recognition Based on Articulatory Feature, International Conference on Communication Software and Networks, 2011, 第 1 作者
(43) Strategies for Using MLP based Features with Limited Target-Language Training Data, ASRU, 2011, 第 2 作者
(44) A FRAME MAPPING BASED HMM APPROACH TO CROSS-LINGUAL VOICE TRANSFORMATION, International Conference on Acoustics, Speech and Signal Processing, 2011, 第 2 作者
(45) A Bayesian View on the Polynomial Distribution Model in Estimation of Distribution Algorithms, IEEE Congress on Evolutionary Computation, 2008, 第 3 作者
(46) Reducing Computational Complexity of Estimating Multivariate Histogram-Based Probabilistic Model, IEEE Congress on Evolutionary Computation, 2007, 第 2 作者