语音识别的研究内容 清华大学 蔡莲红 副教授 1993-07-16 语音识别的最终目的是让计算机理解自然语言,自然语言的最大特点是连续语音,这是语音识别中最困难的课题。如听写机、翻译机、智能计算机中的人机语音对话都需要连续语音识别。按词汇的多少可分为小、中、大三种字表。按对说话人的限制可分为特定人、限定人和非特定人识别系统。对于特定人语音识别,系统启用前,由特定人口呼待识词或指定字表,系统建立特征库(训练)。之后即可口呼待识词。这样的系统只识别训练者的声音。 如果需要有限的几个人使用同一系统,可以研制成限定人识别系统。如果一个系统不必经使用者训练就可以使用,称为非特定人语音识别。这样的系统应能适应各种发音者,使用方便。当然这是个高难课题。图中用三条实线组成的立方体中,在各个层次上都有研究成果。 特定人孤立词小字表语音识别已达到实用阶段,如声控玩具、口呼拨号电话等。非特定人连续语音识别已由美国卡内基梅隆大学研究成功。用99F个词组成句子,识别率达93%。出于公安或银行部门的需要,即通过语音来辨别发音人,这就是说话人识别。以固定发音材料(特定词)来辨识发音者相对较容易,如声控锁。如果要以非特定词来辨识发音者就相当困难了。