电子工程系

Department of Electronic Engineering

刘加 博士 教授

中国北京市清华大学电子工程系 100084

电话:+86-10-62781705

传真:+86-10-62770317

电子邮箱:liuj@tsinghua.edu.cn

 

教育背景

1978年至1990年在清华大学无线电电子学系(现为“电子工程系”)学习。

1983年7月获得“电子和信息系统”学士学位;

 

工作履历

1990年4月-1992年1 月在中国科学院遥感卫星地面站,从事开发美国6号陆地卫星图像处理系统研发工作;

1992年1月-1994年2月在英国剑桥大学作博士后(Royal Fellow),跟随著名教授Frank Fallside和Steve Young从事语音识别和语音合成技术方面的研究工作;

1994年回国至今,在清华大学电子工程系任教,从事语音信号和语言信息处理、网络媒体信号和信息处理、阵列信号处理与信息融合、多媒体通信系统等方面的科学研究与教学工作。

 

教学工作:

(1)人机语音通信

(2)统计学习方法与信号和信息处理

 

研究领域

面向国家重大需求、面向以人为中心信息获取和人性化语音人机交互,研究大数据背景下的语音、音频、听觉信息处理的理论与方法及其应用。基于大数据关联分析处理知道“谁在“什么时间”、“什么地点”、 “什么场景”、“说什么”、“做什么”、“不同事件之间关联关系”,并通过基于大数据的语义理解和意图分析、已经决策的风险估计,最后做出决策处理。具体包括:

1. 大数据背景下基于音频、语音、文本等内容的信息挖掘技术、信息过滤、关联分析和处理技术;

2. 复杂信道条件下海量说话人(声纹)识别技术和语种识别技术以及关键词检测和音字转换技术;

3. 低资源下的小语种语音识别建模方法和理论和大噪声条件下语音识别建模方法;

4. 多语言连续语音流中的大词表关键词检测技术和音字转换技术;

5. 大型麦克风阵列或声传感器阵列信号和信息处理技术,包括定位、跟踪、信号分离、识别技术;

6.语言学习发音质量评价和发音错误检测技术,以及人性化计算机辅助交互式语言学习技术;

7. 表现力语音合成技术和语音情感识别技术;

9. 多模态人性化口语对话语音交互建模方法和理论;

9. 听觉感知和认知信息处理、听觉场景分析。

10. 双声道和多声道条件下声音的虚拟现实技术;

 

研究概况

“九五”期间,主持了国家863项目“听写机研究”和“特定人非特定人语音识别专用芯片研究开发”、国家自然科学基金项目“稳健(抗噪)语音识别系统研究”和“语音识别可信测度和拒识新算法研究”、国际合作项目“基于PSTN网的语音识别系统开发研究”,以及与美国Intel公司国际合作项目“口语对话系统中置信测度研究”。

“十五”期间,主持了国际合作项目 “高性能语音识别专用芯片算法研究开发”和“高性能语音识别片上系统研发”、国家自然科学基金项目“高鉴别特性的汉语非特定人连续语音识别声学模型研究”、国家专项“电话语音说话人识别和语种识别研究”、信息产业部项目“音频信息检测与识别”、国家自然科学基金项目“基于听觉感知模型的说话人识别和语音语种识别新方法研究”。

“十一五”期间,主持国家863 “十一五”探索项目“面向服务机器人的人性化语音交互技术研究”、国家自然科学基金面上项目“基于内容的跨语言语音检索方法研究”、国际合作项目“高性能嵌入式语音识别专用芯片算法研究开发”,以及作为核心骨干参加国家863项目“多语言基础资源库研制和共享”。

 

学术成果

近年部分论文:

[1] W.-Q. Zhang, J. Liu. “An equalized heteroscedastic linear discriminant analysis algorithm.” IEEE Signal Processing Letters, 2008, 15(12): 585-588.

[2] Zhang W Q, He L, Deng Y, Liu J, Johnson M T , “Time-frequency cepstral features and heteroscedastic linear discriminant analysis for language recognition.” IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(2): 266 -276.

[3] Yuxiang Shan, Yan Deng, Jia Liu, Michael T Johnson, “Phone lattice reconstruction for embedded language recognition in LVCSR,” EURASIP Journal on Audio, Speech, and Music Processing 2012, 2012:15, pp.1-13, April 2012

[4] Shi Y, Zhang WQ, Liu J and Johnson MT, ”NN Language Model with Word Clustering and Class-Based Output Layer”. EURASIP Journal on Audio, Speech, and Music Processing 2013, no. 1,pp.1-7, 2013”

[5] Yongzhe Shi, Wei-Qiang, Zhang, Meng Cai, Jia Liu. “Efficient One-Pass Decoding with NNLM for Speech Recognition. IEEE Signal Processing Letters, 2014(21):377-381.”

[6] Zhang Weiqiang,, Liu Weiwei, Shi Yongzhe, Li Zhiyi, Liu Jia.” Spoken language recognition based on gap-weighted subsequence kernels, Speech Communication, 2014.”

[7] Yongzhe Shi, Wei-Qiang, Zhang, Meng Cai, Jia Liu. “Empirically Combining Unnormalized NNLM and Back-off N-gram for Fast N-best Rescoring in Speech Recognition.” EURASIP Journal on Audio, Speech, and Music Processing,2014

[8] Meng Cai, Yongzhe Shi, Jia Liu. “Deep Maxout Neural Networks for Speech Recognition.” In Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), 2013.

[9] Yongzhe Shi, Wei-Qiang, Zhang, Meng Cai, Jia Liu, “Variance Regularization of RNNLM for Speech Recognition.” In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP’2014), Florence, Italy , May 4-9, 2014,pp.4931-4935

[10] Meng Cai, Yongzhe Shi, Jia Liu, “Stochastic Pooling Maxout Networks for Low-Resource Speech Recognition,” In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP’2014), Florence, Italy , May 4-9, 2014,pp3290-3294