深圳市百业乐信息科技有限公司

人机交互 动口不动手——语音识别技术的最新...

2015-05-15

点击量:1000次

实现人与机器进行自然语言通信,扔掉键盘、鼠标,用自然语言操纵计算机,随着语音识别技术的发展,梦想正在变为现实。语音识别技术起步于 20世纪 50年代,经过 50多年的研究与发展,很多成果正从实验室逐步走向实际应用,走向普通用户,接受市场的考验。

语音识别技术的发展及现状

1952年,贝尔实验室的Davis等人成功研究出了世界上第一个能识别10个英文数字发音的实验系统——Audry系统。大规模的语音识别研究是在进入了上个世纪70年代以后,在孤立词和小词汇量句子的识别方面取得了实质性的进展。

进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。此时语音识别的研究思路也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路,亦即开始了跨学科的人工智能研究道路。

进入90年代以后,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资,在语音识别技术的应用及产品化方面出现了很大的进展,诸如听写机等基于语音的信息输入设备此时大量出现。

我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。因此,国内除了要加强理论研究外,更要加快从实验室演示系统到商品的转化。

显然,语音识别技术蕴含着着人机互动的远大前景,也因此拥有各方足够高的评价和期许。在十几年前,语音识别技术似乎还距离普通用户很遥远,用户体验一直也乏善可陈,更多的应用于一些大企业为节约成本而采用的呼叫中心系统,比如:电话订票系统、证券交易系统等。而最近几年,语音识别应用正不断延伸到普通终端用户,更多的进入到我们的日常生活中,这主要得益于它的新变化:语音识别技术不断发展和成熟,新技术的提出及新应用的不断涌现。人们始终对语音这种最简单、最直接的人机交互方式抱有极大的期待,一直有着迫切的需求,尤其是互联网和手机的普遍应用,使得语音识别的应用变得尤为迫切,毕竟单靠手机、键盘完成所有 PC机的操作变得越来越不方便;另一方面,经过多年积累,语音识别的难点问题,例如噪音问题、海量数据的建模问题、口音问题、识别率低等问题都得到很大程度的解决,正逐步满足实用的要求。语音识别应用的支撑环境也有很大的改善。一是海量数据相对容易获得,尤其是一些搜索引擎和门户网站,它们积攒了巨量的语音及文本数据,这为建立超大的语音识别模型奠定了基础;另外,云计算的提出及应用,为复杂而费时的语音识别计算提供了良好的解决方案。

 
顶部底部