欧智坚 - 清华大学 - 电子工程系

个人简介

欧智坚，清华大学副教授、博士生导师，研究方向是语音语言技术（特别是人机对话）、机器智能（特别是概率图模型理论及应用）。担任IEEE音频语音语言期刊（TASLP）副主编，IEEE语音语言技术委员会（SLTC）委员，IEEE言语技术（SLT）2021大会主席，APSIPA机器学习与数据分析技术委员会（MLDA）委员，中国计算机学会（CCF）杰出会员及语音对话与听觉专业组委员，全国人机语音通讯会议常设机构委员会委员等，以及多个国际会议组委会成员、多个国际会议、学术期刊和国家级项目评审人。作为负责人多次承担自然科学基金、科技部、教育部等国家项目并多次赢得技术评测，与Intel、IBM、Panasonic、Toshiba、Apple等合作研发。在TPAMI/TASLP/ICLR/UAI/AAAI/ICASSP/ACL/电子学报等重要学术期刊和会议发表论文近百篇。获得省部级科技奖3项，2005年全国人机语音通信会议优秀论文，指导获得2018清华大学优秀博士论文、2018中文言语处理国际会议最佳学生论文奖等。教育经历 1998.9-2003.7 清华大学电子工程系（信号与信息处理专业）博士 1994.9-1998.7 上海交通大学电子工程系（通信工程专业）学士工作经历 2008.12至今清华大学电子工程系副研究员 2014.8-2015.8 美国UIUC大学访问学者 2003.8-2008.11 清华大学电子工程系讲师 HONORS 广西科学技术进步奖，2021 国家广电人工智能应用创新大赛（MediaAIAC）一等奖，2021 指导北京市普通高校优秀本科毕业设计论文，2020 指导ISCSLP (中文言语处理国际会议) Best Student Paper Award，2018 指导清华大学优秀博士论文，2018 国家广电总局科技创新奖，2012 清华大学第五届青年教师教学大赛一等奖，2012 清华大学优秀班（级）主任一等奖，2010 指导清华大学优秀本科论文，2009、2011、2014、2019、2020、2021、2022 指导清华大学优秀SRT (Student Research Training) 项目，2005、2012 全国人机语音通信会议优秀论文，2005 特定内容音频识别系统(集成语音关键词识别、说话人识别、音频指纹)通过国家计算机网络与信息安全管理中心的评测，2004 赢得2003年度国家863语音识别评测－音节识别任务，2003 获清华大学电子系博士生学术论坛最佳论文奖，2002

研究领域

语音语言技术（特别是人机对话）机器智能（特别是概率图模型理论及应用）

近期论文

查看导师新发文章（温馨提示：请注意重名现象，建议点开原文通过作者单位确认）

Yucheng Cai, Hong Liu, Zhijian Ou, Yi Huang, Junlan Feng. Knowledge-Retrieval Task-Oriented Dialog Systems with Semi-Supervision. INTERSPEECH, 2023. Hong Liu, Zhaobiao Lv, Zhijian Ou, Wenbo Zhao, Qing Xiao. Exploring Energy-based Language Models with Different Architectures and Training Methods for Speech Recognition. INTERSPEECH, 2023. Xinwei Zhang, Zhiqiang Tan, Zhijian Ou. Persistently Trained, Diffusion-assisted Energy-based Models. Hong Liu, Yucheng Cai, Zhenru Lin, Zhijian Ou, Yi Huang, Junlan Feng. Variational Latent-State GPT for Semi-Supervised Task-Oriented Dialog Systems. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2023, Vol.31, Page 970-984. Hong Liu, Hao Peng, Zhijian Ou, Juanzi Li, Yi Huang, Junlan Feng. Information Extraction and Human-Robot Dialogue towards Real-life Tasks: A Baseline Study with the MobileCS Dataset. EMNLP 2022 SereTOD Workshop. Hong Liu, Yucheng Cai, Zhijian Ou, Yi Huang, Junlan Feng. A Generative User Simulator with GPT-based Architecture and Goal State Tracking for Reinforced Multi-Domain Dialog Systems. EMNLP 2022 SereTOD Workshop. Hong Liu, Yucheng Cai, Zhijian Ou, Yi Huang, Junlan Feng. Building Markovian Generative Architectures over Pretrained LM Backbones for Efficient Task-Oriented Dialog Systems. SLT, 2022. Keyu An, Ji Xiao, Zhijian Ou. Exploiting Single-Channel Speech for Multi-Channel End-to-End Speech Recognition: A Comparative Study. ISCSLP, 2022. Yucheng Cai, Hong Liu, Zhijian Ou, Yi Huang, Junlan Feng. Advancing Semi-Supervised Task Oriented Dialog Systems by JSA Learning of Discrete Latent Variable Models. SIGDIAL, 2022. Huahuan Zheng, Keyu An, Zhijian Ou, Chen Huang, Ke Ding, Guanglu Wan. An Empirical Study of Language Model Integration for Transducer based Speech Recognition. INTERSPEECH, 2022. Keyu An, Huahuan Zheng, Zhijian Ou, Hongyu Xiang, Ke Ding, Guanglu Wan. CUSIDE: Chunking, Simulating Future Context and Decoding for Streaming ASR. INTERSPEECH, 2022. Zhijian Ou, Junlan Feng, Juanzi Li, Yakun Li, Hong Liu, Hao Peng, Yi Huang, Jiangjiang Zhao. A Challenge on Semi-Supervised and Reinforced Task-Oriented Dialog Systems. Hong Liu, Zhijian Ou, Yi Huang, Junlan Feng. Jointly Reinforced User Simulator and Task-oriented Dialog System with Simplified Generative Architecture. An early version of Markovian Generative Architectures (MGA) and Generative User Simulator (GUS) Huahuan Zheng*, Wenjie Peng*, Zhijian Ou, Jinsong Zhang. (* Equal contribution and random listing) Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces and Conformers. Dai, Yinpei, Yichi Zhang, Hong Liu, Zhijian Ou, Yi Huang, and Junlan Feng. Elastic CRFs for Open-Ontology Slot Filling. Applied Sciences, vol.11, 2021. (Selected Papers from 16th National Conference on Man-Machine Speech Communication (NCMMSC2021)) Chengrui Zhu, Keyu An, Huahuan Zheng, Zhijian Ou. Multilingual and crosslingual speech recognition using phonological-vector based phone embeddings. IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), 2021. Yunfu Song, Huahuan Zheng, Zhijian Ou. An empirical comparison of joint-training and pre-training for domain-agnostic semi-supervised learning via energy-based models. IEEE Workshop on Machine Learning for Signal Processing (MLSP), 2021. Keyu An, Yi Zhang, Zhijian Ou. Deformable TDNN with adaptive receptive fields for speech recognition. INTERSPEECH, 2021. Huahuan Zheng, Keyu An, Zhijian Ou. Efficient Neural Architecture Search for End-to-end Speech Recognition via Straight-Through Gradients. SLT, 2021. Fan Yu, Zhuoyuan Yao, Xiong Wang, Keyu An, Lei Xie, Zhijian Ou, Bo Liu, Xiulin Li, Guanqiong Miao. The SLT 2021 children speech recognition challenge: Open datasets, rules and baselines. SLT, 2021. Yichi Zhang, Zhijian Ou, Huixin Wang, Junlan Feng. A Probabilistic End-To-End Task-Oriented Dialog Model with Latent Belief States towards Semi-Supervised Learning. EMNLP, 2020. Keyu An, Hongyu Xiang. Zhijian Ou. CAT: A CTC-CRF based ASR Toolkit Bridging the Hybrid and the End-to-end Approaches towards Data Efficiency and Low Latency. INTERSPEECH, 2020. Yichi Zhang, Yinpei Dai, Zhijian Ou, Huixin Wang, Junlan Feng. Improved Learning of Word Embeddings with Word Definitions and Semantic Injection. INTERSPEECH, 2020. Zhijian Ou, Yunfu Song. Joint Stochastic Approximation and Its Application to Learning Discrete Latent Variable Models. UAI, 2020. Silin Gao, Yichi Zhang, Zhijian Ou and Zhou Yu. Paraphrase Augmented Task-Oriented Dialog Generation. ACL, 2020. Yunfu Song, Zhijian Ou, Zitao Liu, Songfan Yang. Upgrading CRFs to JRFs and its benefits to sequence modeling and labeling. ICASSP, Barcelona, Spain, 2020. Silin Gao, Zhijian Ou, Wei Yang, Huifang Xu. Integrating discrete and neural features via mixed-feature trans-dimensional random field language models. ICASSP, Barcelona, Spain, 2020. (oral) Yichi Zhang, Zhijian Ou, Zhou Yu. Task-Oriented Dialog Systems that Consider Multiple Appropriate Responses under the Same Context. AAAI, New York, USA, 2020. Yunfu Song, Zhijian Ou. Generative Modeling by Inclusive Neural Random Fields with Applications in Image Generation and Anomaly Detection. Zhiqiang Tan, Yunfu Song, Zhijian Ou. Calibrated Adversarial Algorithms for Generative Modeling. Stat, 2019. Yunfu Song, Zhijian Ou. Semi-supervised Seq2seq Joint-stochastic-approximation Autoencoders with Applications to Semantic Parsing. IEEE Signal Processing Letters, vol. 27, p.31-35, 2019. Hongyu Xiang, Zhijian Ou. CRF-based Single-stage Acoustic Modeling with CTC Topology. ICASSP, Brighton, UK, 2019. Kai Hu, Zhijian Ou, Min Hu, Junlan Feng. Neural CRF Transducers for Sequence Labeling. ICASSP, Brighton, UK, 2019. Zhijian Ou. A Review of Learning with Deep Generative Models from Perspective of Graphical Modeling. Yunfu Song, Zhijian Ou. Learning Neural Random Fields with Inclusive Auxiliary Generators. Yutian Li, Zhijian Ou. THU-SPMI System For NIST 2018 Speaker Recognition Evaluation. NIST SRE-18 Workshop, Athens, Greece, 2018 Dec. Bin Wang, Zhijian Ou. Improved training of neural trans-dimensional random field language models with dynamic noise-contrastive estimation. IEEE Workshop on Spoken Language Technology (SLT), Athens, Greece, 2018 Dec. Zhangyu Xiao, Zhijian Ou, Wei Chu, Hui Lin. Hybrid CTC-Attention based End-to-End Speech Recognition using Subword Units. International Symposium on Chinese Spoken Language Processing (ISCSLP), Taipei, 2018 Nov. Yutian Li, Feng Gao, Zhijian Ou, Jiasong Sun. Angular Softmax Loss for End-to-end Speaker Verification.?(Best Student Paper Award) International Symposium on Chinese Spoken Language Processing (ISCSLP), Taipei, 2018 Nov. Yichi Zhang, Zhijian Ou. Learning Sparse Structured Ensembles With Stochastic Gradient MCMC Sampling and Network Pruning. IEEE Workshop on Machine Learning for Signal Processing (MLSP), Aalborg, Denmark, 2018 Sept. Yinpei Dai, Zhijian Ou, Dawei Ren, Pengfei Yu. Tracking of enriched dialog states for flexible conversational information access. ICASSP, Calgary, Canada, 2018. Bin Wang, Zhijian Ou. Learning neural trans-dimensional random field language models with noise-contrastive estimation. ICASSP, Calgary, Canada, 2018. Bin Wang, Zhijian Ou, Zhiqiang Tan. Learning Trans-dimensional Random Fields with Applications to Language Modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 2018, 40(4):876-890. Bin Wang, Zhijian Ou. Language modeling with Neural trans-dimensional random fields. IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), Okinawa, Japan, 2017 Dec. Yiyan Wang, Haotian Xu, Zhijian Ou. Joint Bayesian Gaussian discriminant analysis for speaker verification. ICASSP, New Orleans, USA, 2017 Mar. Yiyan Wang, Haotian Xu, Zhijian Ou. The THU-SPMI SRE-16 System with Joint Bayesian Scoring and Ladder Network based Feature Learning. NIST SRE-16 Workshop, San Diego, USA, 2016 Dec. Hongyu Xiang, Bin Wang and Zhijian Ou. The THU-SPMI CHiME-4 system : Lightweight design with advanced multi-channel processing, feature enhancement, and language modeling. CHiME Workshop, San Francisco, USA, 2016 Sept. Bin Wang, Zhijian Ou, Yong He, Akinori Kawamura. Model Interpolation with Trans-dimensional Random Field Language Models for Speech Recognition. Haotian Xu, Zhijian Ou. Scalable Discovery of Audio Fingerprint Motifs in Broadcast Streams With Determinantal Point Process Based Motif Clustering. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2016, 24(5). Haotian Xu, Zhijian Ou. Joint Stochastic Approximation Learning of Helmoltz Machines. International Conference on Learning Representations (ICLR) 2016 Workshop Track, Puerto Rico, USA, 2016 May. Ruobai Wang, Yang Zhang, Zhijian Ou and Mark Hasegawa-Johnson. Use of Particle Filtering and MCMC for Inference in Probabilistic Acoustic Tube Model. IEEE Workshop on Statistical Signal Processing (SSP), Palma de Mallorca, Spain, 2016 June. Jinye Zhang, Zhijian Ou. Block-Wise MAP Inference for Determinantal Point Processes with Application to Change-Point Detection. IEEE Workshop on Statistical Signal Processing (SSP), Palma de Mallorca, Spain, 2016 June. Yang Zhang, Zhijian Ou and Mark Hasegawa-Johnson. Incorporating AM-FM effect in voiced speech for probabilistic acoustic tube model. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, USA, 2015 Oct. Bin Wang, Zhijian Ou and Zhiqiang Tan. Trans-dimensional Random Fields for Language Modeling. Annual Meeting of the Association for Computational Linguistics (ACL Long Paper), Beijing, China, 2015 July. Yang Zhang, Zhijian Ou, Mark Hasegawa-Johnson. Improvement of Probabilistic Acoustic Tube Model for Speech Decomposition. ICASSP, Florence, Italy, 2014 May. Bin Wang, Zhijian Ou, Jian Li, Akinori Kawamura. Joint-Character-POC N-gram Language Modeling For Chinese Speech Recognition. International Symposium on Chinese Spoken Language Processing (ISCSLP), Singapore, 2014 Sept. Xin He, Zhijian Ou, Jiasong Sun. Joint N-gram Chinese Language Modeling with an Application to Chinese Word Segmentation. IEEE International Conference on Audio, Language and Image Processing (ICALIP), Shanghai, 2012. Zhijian Ou, Yang Zhang. Probabilistic Acoustic Tube: A Probabilistic Generative Model of Speech for Speech Analysis/Synthesis. International Conference on Artificial Intelligence and Statistics (AISTATS), La Palma, Spain, 2012 Apr.

学术兼职

2019.5至今 IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)，Associate Editor 2021.11至今 Computer Speech and Language, Editorial Board Member 2020.1至今 IEEE Speech and Language Processing Technical Committee (SLTC)，Member 2019.3至今 Asia-Pacific Signal and Information Processing Association (APSIPA) Machine Learning and Data Analytics (MLDA) Technical Committee，Member 2015.2至今 IEEE，Senior Member 2018.9至今中国计算机学会（CCF），高级会员 2018.5至今中国计算机学会（CCF）语音对话与听觉专委会，委员 2021.3至今中国声学学会语言声学、音乐与听觉分会，委员 2017.11至今全国人机语音通讯会议常设机构委员会，委员