吴志勇 - 清华大学 - 深圳国际研究生院

个人简介

1995年7月-1999年7月，清华大学计算机科学与技术系，获学士学位 1999年7月-2005年6月，清华大学计算机科学与技术专业，获工学博士学位 2005年8月-2007年8月，香港中文大学博士后研究员 2007年8月-2008年12月，清华大学深圳研究生院讲师 2008年5月至今，香港中文大学荣誉副研究员 2008年12月至今，清华大学深圳研究生院副研究员学术兼职 2018- 中国计算机学会(CCF)语音对话与听觉专业组委员/秘书组成员 2011- 中国计算机学会(CCF) 会员 2006- 国际语音通讯协会(ISCA) 会员 2005- 国际电子电气工程师学会(IEEE) 会员 2007- IEEE计算智能协会智能系统应用委员会(CIS ISATC) 委员 2005- 国际互联网联盟(W3C)语音合成标记语言(SSML)工作组成员 2009- 中国声学学会：语言、音乐和听觉声学分会委员 2009- 全国人机语音通讯学术会议(NCMMSC)常设机构委员 2005- IEEE/ACM Trans. Audio, Speech and Language Processing 期刊审稿人 2011- ACM Trans. Asian Language Processing 期刊审稿人 2013- Speech Communication 期刊审稿人 2013- Multimedia Tools and Applications 期刊审稿人 2006- INTERSPEECH; ICASSP; ISCSLP; NCMMSC; ACL; IJCNLP; ??NeurIPS; AAAI; IJCAI 会议审稿人 2012 ISCSLP 2012 程序委员会出版主席 2015 第8届京港国际博士生论坛指导委员会主席 2015 NCMMSC 2015 Special Session主席 2016 ISCSLP 2016 Session主席 2018 第11届国际博士生论坛指导委员会主席 2020 INTERSPEECH 2020 Special Session主委会主席 2021 SLT 2020 本地主席 2022 ICASSP 2022 深圳分会场本地主席 2006- 国家自然科学基金（NSFC）函评专家荣誉奖项教育部科技进步二等奖（2016）：第四完成人，获奖项目“汉语言语感知与交互的建模及其应用” 教育部科技进步二等奖（2009）：第三完成人，获奖项目“多模态的多语种语音、语言交互的研究与应用” 深圳市科技创新奖（2007）：第八完成人，获奖项目“P2P架构的流媒体数字版权保护平台” 极棒（GeekPwn）全球极客大赛“AI仿声验声攻防赛”第一（2017）：“清晨李唐王”团队（王木、黄雨晨、李润楠、唐耀东，导师：吴志勇）清华大学年度教学优秀奖（2020）腾讯AI Lab犀牛鸟专项研究及访问学者计划卓越奖（2018、2019）、优秀奖（2020）

研究领域

主要从事智能语音交互技术研究，包括：语音处理、表现力语音合成、个性化表现力可视语音合成（语音合成及虚拟说话人唇动、表情、头动等相关技术）、语音转换、歌唱合成、语音识别、自然语言理解与生成、音视联合建模、情感计算、机器学习等。

近期论文

查看导师新发文章（温馨提示：请注意重名现象，建议点开原文通过作者单位确认）

Xixin WU, Yuewen CAO, Hui LU, Songxiang LIU, Disong WANG, Zhiyong WU, Xunying LIU, Helen MENG, Speech Emotion Recognition Using Sequential Capsule Networks, IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP), vol. 29, pp. 3280-3291, 2021. (SCI, EI) (CCF A) Xixin WU, Yuewen CAO, Hui LU, Songxiang LIU, Shiyin KANG, Zhiyong WU, Xunying LIU, Helen MENG, Exemplar-Based Emotive Speech Synthesis, IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP), vol. 29, pp. 874-886, 2021. (SCI, EI) (CCF A) Yingmei GUO, Linjun SHOU, Jian PEI, Ming GONG, Mingxing XU, Zhiyong WU and Daxin JIANG, Learning from Multiple Noisy Augmented Data Sets for Better Cross-Lingual Spoken Language Understanding, [in] Proc. EMNLP, pp. 1-12. Punta Cana, Dominican Republic, 7-11 November, 2021. (EI) (THU A) Yaohua BU, Tianyi MA, Weijun LI, Hang ZHOU, Jia JIA, Shengqi CHEN, Kaiyuan XU, Dachuan SHI, Haozhe WU, Zhihan YANG, Kun LI, Zhiyong WU, Yuanchun SHI, Xiaobo LU, Ziwei LIU, PTeacher: a Computer-Aided Personalized Pronunciation Training System with Exaggerated Audio-Visual Corrective Feedback, [in] Proc. CHI, pp. 1-14. Yokohama, Japan, 8-13 May, 2021. (EI) (CCF A) Suping ZHOU, Jia JIA, Zhiyong WU, Zhihan YANG, Yanfeng WANG, Wei CHEN, Fanbo MENG, Shuo HUANG, Jialie SHEN, Xiaochuan WANG, Inferring Emotion from Large-Scale Internet Voice Data: A Semi-supervised Curriculum Augmentation based Deep Learning Approach, [in] Proc. AAAI, pp. 6039-6047. 2-9 February, 2021. (EI) (CCF A) Runnan LI, Zhiyong WU, Jia JIA, Yaohua BU, Sheng ZHAO, Helen MENG, Towards Discriminative Representation Learning for Speech Emotion Recognition, [in] Proc. IJCAI, pp. 5060-5066. Macao, China, 10-16 August, 2019. (EI) (CCF A) Yishuang NING, Sheng HE, Zhiyong WU, Chunxiao XING, Liangjie ZHANG, A Review of Deep Learning Based Speech Synthesis, Applied Sciences-Basel, vol. 9, no. 19, pp. 4050, September 2019. (SCI, EI) Runnan LI, Zhiyong WU, Jia JIA, Jingbei LI, Wei CHEN, Helen MENG, Inferring User Emotive State Changes in Realistic Human-Computer Conversational Dialogs, [in] Proc. ACM Multimedia, pp. 136-144. Seoul, Korea, 22-26 October, 2018. (EI) (CCF A) Kun LI, Shaoguang MAO, Xu LI, Zhiyong WU, Helen MENG, Automatic Lexical Stress and Pitch Accent Detection for L2 English Speech using Multi-Distribution Deep Neural Networks, Speech Communication, vol. 96, pp. 28-36, Elsevier, February 2018. (SCI, EI) (CCF B) Yishuang NING, Jia JIA, Zhiyong WU, Runnan LI, Yongsheng AN, Yanfeng WANG, Helen MENG, Multi-task Deep Learning for User Intention Understanding in Speech Interaction Systems, [in] Proc. AAAI, pp. 161-167. San Francisco, USA, 4-9 February, 2017. (EI) (CCF A) Zhiyong WU, Yishuang NING, Xiao ZANG, Jia JIA, Fanbo MENG, Helen MENG, Lianhong CAI, Generating Emphatic Speech with Hidden Markov Model for Expressive Speech Synthesis, Multimedia Tools and Applications, vol. 74, pp. 9909-9925, Springer, 2015. (SCI, EI) (CCF C) Zhiyong WU, Kai ZHAO, Xixin WU, Xinyu LAN, Helen MENG, Acoustic to Articulatory Mapping with Deep Neural Network, Multimedia Tools and Applications, vol. 74, pp. 9889-9907, Springer, 2015. (SCI, EI) (CCF C) Qi LYU, Zhiyong WU, Jun ZHU, Polyphonic Music Modelling with LSTM-RTRBM, [in] Proc. ACM Multimedia, pp. 991-994. Brisbane, Australia, 26-30 October, 2015. (EI) (CCF A) Qi LYU, Zhiyong WU, Jun ZHU, Helen MENG, Modelling High-dimensional Sequences with LSTM-RTRBM: Application to Polyphonic Music Generation, [in] Proc. IJCAI, pp. 4138-4139. Buenos Aires, Argentina, 25-31 July, 2015. (EI) (CCF A) Jia JIA, Zhiyong WU, Shen ZHANG, Helen MENG, Lianhong CAI, Head and Facial Gestures Synthesis using PAD Model for an Expressive Talking Avatar, Multimedia Tools and Applications, vol. 73, no. 1, pp. 439-461, Springer, 2014. (SCI, EI) (CCF C) Zhiyong WU, Helen M. MENG, Hongwu YANG, Lianhong CAI, Modeling the Expressivity of Input Text Semantics for Chinese Text-to-Speech Synthesis in a Spoken Dialog System, IEEE Transaction on Audio, Speech and Language Processing (TASLP), vol. 17, no. 8, pp. 1567-1577, November, 2009. (SCI, EI) (CCF A)