什么是语音识别技术
语音识别技术,简单来说就是利用计算机将语音信号自动转换为文本的一项技术。这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程。
语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言。其应用领域也非常广,可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。
语音识别技术的难点
1、自适应问题
语音识别系统的自适应性差体现在对环境条件的依赖性强,现有倒谱归一化技术、相对谱技术、LINLOG RASTA 技术等自适应训练方法。
2、噪声问题
语音识别系统在噪声环境下使用,讲话人产生情绪或心理上的变化,导致发音失真、发音速度和音调改变,产生Lombard/Loud 效应。常用的抑制噪声的方法有谱减法、环境规正技术、不修正语音信号而是修正识别器模型使之适合噪声、建立噪声模型。
3、语音识别基元的选取问题
一般地,欲识别的词汇量越多,所用基元应越小越好。
4、端点检测
语音信号的端点检测是语音识别的关键第一步,研究表明,即使在安静的环境下,语音识别系统一半以上的识别错误来自端点检测器,提高端点检测技术的关键在于寻找稳定的语音参数 。
语音识别的应用
语音识别可以应用的领域大致分为大五类:
办公室或商务系统
典型的应用包括:填写数据表格、数据库管理和控制、键盘功能增强等等。
制造业
在质量控制中,语音识别系统可以为制造过程提供一种“不用手”、“不用眼”的检控。
电信
相当广泛的一类应用在拨号电话系统上都是可行的,包括话务员协助服务的自动化、国际国内远程电子商务、语音呼叫分配、语音拨号、分类订货。
医疗
这方面的主要应用是由声音来生成和编辑专业的医疗报告。
其他
包括由语音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的语音控制,如车载交通路况控制系统、音响系统。