在线客服

语音识别技术实用13篇

引论:我们为您整理了13篇语音识别技术范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。

语音识别技术

篇1

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。 二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展.企业专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

篇2

目前上海地铁

一、

二、

三、

五、

六、八号线在车辆信息显示系统的设计上缺少实用性和操作性,对乘客来讲缺少在实时报站时的人性化。如:地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统。如果在每个车门的上方安装车站站名动态显示地图,实时显示与车厢广播同步的信息,以及在每节车厢外侧显示列车的终点站,良好的工业设计不仅能给广大的乘客带来非常大的帮助,而且能够提升上海地铁服务的形象。由于在设计以上地铁列车时,受科技发展的限制。现在上海地铁4号线在车辆信息显示系统的设计上满足了广大的乘客的需求,

增加了车站站名动态显示地图。

如何在现有的地铁车辆上增加地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统,如图1、2,首先考虑其实用性和性价比,同时安装、操作要方便,在不影响列车的性能的前提下,完成本乘客信息显示系统的应用,设计方案的选择极其重要,目前的乘客信息显示系统比较复杂,例如:对于应用在某条线路上的声音识别系统,不仅要修改原语音文件,而且声音识别器不容易操纵,

对使用者来讲仍然存在比较多的问题。对于应用在某条线路上数字传输显示系统,其操作方法不仅给司机带来了任务,每站需要手动操作二次,同时显示的相关内容没有实时性,总之乘客信息显示系统比较落后。

设计一种符合现代化要求的乘客信息显示系统是非常必要。

2.设计

地铁车辆乘客信息显示系统的设计,采用CMOS语音识别大规模集成电路,识别响应时间小于300ms。HM2007芯片采用单片结构,如图3。将语音识别需要的全部电路:CPU、A/D、ROM、语音的AMP放大器、压缩器、滤波器、震荡器和接口界面等集中在一片芯片内,这样电路就非常少,外接64K非易失性SRAM,最多能识别40个车站站名语音(字长0.9秒),或(字长1.92秒)但识别仅20个车站站名语音。按正常人的讲话速度,0.9秒一般每秒吐字1到3个为宜。

针对目前上海地铁列车在车厢内外无LED动态站名显示而设计,通过将列车车厢广播的模拟信号转换成数字信号,自动控制LED发光二极管,在列车在车厢内使得广播的内容(每个车站站名)与发光二极管显示面板声光同步,将显示面板放置地铁车辆的每扇车门上方,并且显示面板以地铁运营线路为背景,达到列车进站和出站时能分别指示。在列车车厢外让乘客非常直观地、一目了然地了解车辆的终点站方向,从而方便乘客的上下车,提高了地铁服务水平。在国外的地铁列车上应用已相当普遍。

语音识别显示器①的输入端与车载广播功放器相连接,实现广播模拟信号发出的语音进行车站名的自动识别。不需要编程技术和修改文件等方法,全部采用硬件方法设计。整个系统分为5部分:(1)输入控制部分;(2)噪音滤波部分;(3)语言识别部分;(4)执行显示部分;(5)录音功能部分。

(1)输入控制部分:

通过麦克风或(结合器)连接,如图4所示,要求模拟语音输入点的电压必须控制在大约20mv左右,以确保后期语音识别的正确性。在输入电路中增加了声音控制部分的电路,即将模拟信号转变成数字方波信号,对语音输入进行开关量的控制,确保在T<0.9秒内的正确输入语音字长。

(2)语音识别部分:

利用语音识别芯片HM2007和外接6264SRAM存储器组成为主要部分,(HM2007中ROM已经固化了语音语法技术)对语音的存储及语音语法算法进行控制。HM2007的详细内容见产品说明书。

(3)噪音滤波部分:

滤波功能是自动识别(阻挡)我们在设计阶段设计好的各个工况的语音情况,例如:司机的讲话及车辆杂音等(在麦克风的工况下),以确保输入语音的可靠性、稳定性,特采用UM3758串行编译码一体化进行滤波电路。如图5。

(4)执行显示部分:

将车厢广播喇叭的模拟信息通过语音识别器转变成数字信息,最终经过译码电路、4/16多路数据选择器及RS485接口,去控制车厢内车门上十个LED显示面板,如图6。

(5)录音功能部分:

在进行广播内容更改时,本项目最大的特点是:不需要任何手段的手工软件编程的修改,而是通过远程音频电路控制技术进行按动相关按钮,选择地址然后自动录入内容,如图6。

3.结论

语音识别器及LED显示面板的设计,能应用到以前没有LED显示面功能的地铁车辆上,与其他所设计的方式相比较,语音识别控制简单、可靠性好、安装方便、相对投资最小和不改动车厢内任何电器为特点,仅提供110VDC电源和音频输入接口。

本项目的开发具有一定社会效益,得到国内外乘客和残疾人员的欢迎,提高了地铁服务质量。

参考文献:

1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007

2.555集成电路实用大全上海科技普及出版社

3.①获得“2003年上海市优秀发明选拔赛三等奖”

篇3

近年来,随着科学技术的进步,语音识别技术的发展,通过语言操纵机器的梦想正在逐步变为现实。语音识别是语音信号处理的一个重要的研究方向,经过50多年的积累研究,尤其是近20年来,语音识别技术取得了显著进步,并且广泛应用于商业,比如苹果的siri系统。本文从语音识别的发展历史、发展方向来着重分析未来语音识别技术的发展趋势。

1 语音识别技术的发展历史

1.1 语音识别技术在国际的发展

早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的AT& T Bell实验室研发的Audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(LP)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;80年代和90年代是语音识别技术应用研究方向的,HMM模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,Apple等著名公司都研发出相当成功的商业应用语音识别系统,比如,Apple的Siri系统,微软的Phone Query (电话语音识别)引擎等。

1.2 语音识别技术在国内的发展

我国的语音识别研究工作虽然起步较晚,但由于国家的重视,研究工作进展顺利,相关研究紧跟国际水平。由于中国有不可忽视的庞大市场,国外对中国的语音识别技术也非常重视,汉语语音语义的特殊性也使得中文语音识别技术的研究更具有挑战。但是,国内研究机构在进行理论研究的同时,应注重语音识别系统在商业中的应用,加快从实验室演示系统到商品的转化。

现如今,许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等。但是,这与实现真正的人机交流还有相当遥远的距离。目前,计算机对用户语音的识别程度不高,人机交互上还存在一定的问题,语音识别技术还有很长的一段路要走,必须取得突破性的进展,才能做到更好的商业应用,这也是未来语音识别技术的发展方向。

2 语音识别技术的技术实现及困难

语音识别技术的实现方式是声音通过转换装置进入机器,而机器配有“语音辨识”程序,程序将得到的声音样本与数据库存储的样本进行比对,输出最匹配的结果,转化为机器语言,进而执行命令。真正建立辨识率高的语音辨识程序组,是非常困难而专业的,专家学者们研究出许多破解这个问题的方法,如傅立叶转换、倒频谱参数等,使目前的语音辨识系统已达到一个可接受的程度,并具有较高辨识度。

2.1 语音识别的技术实现方式

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,其中,最基础的就是语音识别单元的选取。

(1)语音识别单元的选取。语音识别研究的基础是选择语音识别单元。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种语音识别单元由具体研究任务的类型决定:

单词(句)单元在中小词汇语音识别系统中应用广泛,但由于模型库过于庞大,模型匹配算法复杂,实时性不强,所以不适合大词汇系统;

音节单元主要应用于汉语语音识别,因为汉语是单音节结构的语言,虽然有大约1300个音节,但无调音节共408个,相对较少,所以音节单元在中、大词汇量的汉语语音识别系统上是可行的。

音素单元之前曾广泛应用于英语语音识别,也越来越多的应用于中、大词汇量汉语语音识别系统中。原因在于汉语音节仅由22个声母和28个韵母构成,把声母细化,虽然增加了模型数量,但是提高了易混淆音节的区分能力

(2)特征参数提取技术。特征提取就是对语音信号进行分析处理,把丰富的语音信息中的冗余信息去除,获得对语音识别有用的信息。这是一个对语音信号进行信息压缩的过程,目前经常采用的特征参数提取技术是线性预测(LP)分析技术。基于LP技术提取的倒谱参数再加上Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱对人耳处理声音的模拟,进一步提高了语音识别系统的性能。

(3)模式匹配及模型训练技术。早期的语音识别应用的模式匹配和模型训练技术是动态时间归正技术(DTW),它在孤立词语音识别中获得了良好性能,但是由于对大词汇量以及连续语音识别的不准确,目前已经被隐马尔可夫模型(HMM)和人工神经元网络(ANN)所取代。

2.2 语音识别遇到的困难

目前,语音识别研究工作进展缓慢,困难具体表现在:

(一)语音识别系统对环境敏感,采集到的语音训练系统只能应用于与之对应的环境,而且当用户输入错误时不能正确响应,应用起来相对困难;(二)必须采取新的新号处理方法来处理人在高噪声环境下的发音变化的问题;(三)语言模型、语法及词法模型在中、大词汇量连续语音识别中无法正确、合理的运用,需要有效地利用语言学、心理学及生理学等方面的研究成果;现阶段的科学技术对人类生理学诸如听觉系统分析理解功能、大脑神经系统的控制功能等还不够,更无法应用于语音识别;语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。

3 语音识别技术的发展趋势

3.1 进一步提高可靠性

目前语音识别系统很难做到排除各种声学环境因素的影响,而人类语言在日常生活中的随意性和不确定性给语音识别系统造成极大的识别困难。所以,要应用现代技术智能化语音识别系统,以达到更好的识别效果;

3.2 增加词汇量

目前语音识别系统使用的声学模型和语音模型过于局限,需要通过改进系统建模方法、提高搜索算法的效率来做到词汇量无限制和多重语言混合,减少词汇量对语音识别系统的限制;

3.3 微型化并降低成本

语音识别系统在商业上的用途相当广泛,利用先进的微电子技术,将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以缩减成本,更方便的推广和使用。语音识别系统和微电子芯片技术的发展将引领信息技术革命到一个新的台阶。语音识别系统使人沟通更加自由,使人可以方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

4 结束语

21世纪,信息和网络飞速发展,信息和网络的时代已经来临,人与人之间的距离随着Internet和移动电话网的连接和普及变得越来越近,信息资源扩散的越来越迅速,人与机器的交互显得尤为重要。语音识别技术的研究和应用可以让人无论何时何地都可以通过语音交互的方式实现任何事,可以使人更方便的享受更多的社会信息资源和现代化服务,所以,如何将这一技术可靠的、低成本的应用于商业和日常生活,是语音识别技术的发展方向和趋势。

参考文献:

[1]刘钰.语音识别技术概述[J].计算机光盘软件与应用,2010:14-17.

[2]盛青.语音自动识别技术及其软件实时实现[J].西北工业大学,2001:45-47.

[3]廖锎.浅析语音识别技术的发展及趋势[J].科技传播,2010:34-36.

篇4

1 引言

语音识别起源于20世纪50年代AT&T贝尔实验室的Audry系统,它第一次实现了10个英文数字的语音识别,这是语音识别研究工作的开端。作为一门交叉学科,它正逐步成为信息技术中人机接口的关键技术,被认为是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术与语音合成技术结合使人们能够甩掉键盘,取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式。

2 相关技术简介

2.1 语音识别技术

所谓语音识别技术就是让计算机(或机器)通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术,属于多维模式识别和智能计算机接口的范畴。语音识别技术的终极目标就是研制出一台能听懂任何人、任何内容的讲话的机器。语音识别按发音方式分为孤立词、连接词和连续语音的语音识别系统;按词汇量大小分为小词表、中词表和大词表以及无限词汇量语音识别;按说话人适应范围分为特定人、限定人和非特定人语音识别。

2.2 多Agent技术

Agent的研究起源于人工智能领域,Agent具有自治性、社会性、反应性和能动性。智能Agent对自己的状态和行为有完全的控制能力,它能够在没有人或者在其他Agent的直接干预下,对复杂的刺激进行响应并产生内部状态的控制和适应性的行为,外界通过Agent的接口对Agent实现功能调用和通信,而无需知道Agent内部的具体工作过程。多Agent系统(MAS)由多个自主或半自主的智能体组成,每个Agent或者履行自己的职责,或者与其他Agent通信获取信息互相协作完成整个问题的求解。语音识别技术本就是人工智能的一个应用方面,而将人工智能的前沿理论―多Agent技术引入语音识别技术中是一项有意义的工作。

3 在语音识别中引入多Agent技术

3.1 多Agent语音识别原理

传统的语音识别存在自适应问题,对环境条件的依赖性强;噪声问题,讲话人产生情绪或心里上的变化,导致发音失真、发音速度和音调改变,产生Lombard/Loud效应;其它如识别速度问题、拒识问题以及关键词检测问题。而多Agent技术中自治智能和分布协同的特性能够在一定程度上解决这些问题。多Agent语音识别其基本原理就是将输入的语音,经过处理后,将其和语音模型库进行比较,从而得到识别结果,具体原理见图1。

该图中语音输入Agent就是待识别语音的原始输入,语音采集Agent指话筒、电话等设备的语音输入;数字化预处理Agent的功能包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等;特征提取Agent用于提取语音中反映本质特征的声学参数,常用的特征有短时平均能量或幅度、短时平均跨零率、线性预测系数、基音频率、倒谱和共振峰等。在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,通过模型匹配Agent和规则判别Agent将匹配分数最高的参考模板作为识别结果。同时在模式匹配和规则判别时还可以在很多专家知识的帮助下,以便提高识别的准确率。

3.2 多Agent语音识别流程

加入了多Agent技术的语音识别系统具体实现细节与传统的语音识别系统有所不同,加入了更多的智能协作的因素,但所应用的识别过程大致相似,具体流程见图2。

首先是系统中的协调Agent确定语音识别单元的选取。语音识别单元有单词(句)、音节和音素三种。然后在特征提取Agent中去除语音中对识别无关紧要的冗余信息,目前广泛应用的有基于线性预测分析技术提取的倒谱参数和基于感知线性预测分析提取的感知线性预测倒谱。接着采用适当的语音识别方法,通过对确定的语音特征进行模型训练、智能学习后得到模板库,然后用若干个特征提取Agent将待识别的输入语音信号的各个量化的特征通过分工协作的方式进行提取,最后模型匹配Agent将量化的语音特征与模板库进行模式匹配,通过友好的人机界面把识别结果输出。

4 多Agent语音识别技术在军事上的应用

最近十年内语音识别技术军事化应用非常广泛,目前研究比较多的有语音识别技术在智能武器装备开发领域的应用、在军事作战文书自动化过程中的应用、在军事测试设备和军队话务台的应用。下面重点介绍多Agent语音识别技术在军事作战文书自动化过程中的应用。

作战文书句式变化不大、语法简单、使用人群范围可定、语音识别模板库易于建立且要求不高,其语音识别易于实现。总体方案是:尽可能统一各军兵种作战文书类型;收集不同类型作战文书实例;构造作战文书词汇库;针对标图地域构造地名数据库;建立不同类型作战文书的句型库;分析军队标号的涵义建立模板库;将作战文书编译成标图指令来完成军事地图的标绘。其一般过程为作战文书的词处理、作战文书的语法分析、作战文书标图指令的形成,最后通过API接口传输给计算机完成自动标绘工作,如图3所示。

5 结束语

语音识别技术是非常重要的人机交互技术,有着非常广泛的应用领域和市场前景,为网上会议、商业管理、医药卫生、教育培训等各个领域带来了极大的便利。随着人工智能技术的发展,把多Agent技术应用到语音识别系统中,通过自治智能和分布协同的特性较好地解决了传统语音识别技术中存在的突出问题,这必将成为语音识别系统发展的主流。

参考文献:

[1] 胡斌,汤伟,刘晓明.基于自然语言理解的文本标图系统设计与实现[J].理工大学学报:自然科学版,2005,6(2):132-136.

[2] 赵力.语音信号处理[M].北京:机械工业出版社,2003:215-240.

[3] 王作英,肖熙.基于段长分布的HMM语音识别模型[J].电子学报,2004,32(1):46-49.

[4] 曹承志.智能技术[M].北京:清华大学出版社,2004.

[5] 杜琳.基于COM技术的军事标图组件的设计与实现[D].郑州:信息工程大学,2006.

[6] 朱民雄,闻新,黄健群,等.计算机语音技术[M].北京:北京航空航天大学出版社,2002.

[7] 方敏,浦剑涛,李成荣,等.嵌入式语音识别系统的研究和实现[J].中文信息学报,2004(6):73-78.

篇5

语音作为语言的声学体现,也是人类进行信息交流最自然、和谐的手段。与机械设各进行语音的沟通,让机器可以明白人类在说什么,并理解这是人类长期的梦想。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

二、语音信号分析与特征提取

1.基于发音模型的语音特征。(1)发音系统及其模型表征。其发声过程就是由肺部进行收缩,并进行压缩气流由支气管通过声道和声门引起的音频振荡所发生的。气流通过声门时使得声带的张力刚好使声带发生比较低的频率的振荡,从而形成准周期性的空气脉冲,空气脉冲激励声道便会产生一些浊音;声道的某处面积比较小,气流冲过时便会产生湍流,会得到一种相似噪声的激励,对应的则是摩擦音;声道完全闭合并建立起相应的气压,突然进行释放就是爆破音。(2)语音信号线性预测倒谱系数。被广泛应用的特征参数提取技术的就是线性预测分析技术,很多成功的应用系统都是选用基于线性预测技术进而提取的LPC倒谱系数作为应用系统的特征。LPC倒谱就是复倒谱。复倒谱就是信号通过z进行变换以后再取其对数,求反z变换所得到的谱。线性预测分析方法其实就是一种谱的估计方法,所以其声道模型系统函数H(z)反映的就是声道频率激励和信号的谱包络,对IHg(z)作反z变换就可以得出其复倒谱系数。改复倒谱系数是依据线性预测模型直接获得的,而又被称为LPC倒谱系数(LPCC)。

2.基于听觉模型的语音特征。(1)听觉系统模型。一是人类的听觉系统对于声音频率高低和声波实际的频率高低不是线性的关系,它对不同声音频率信号的敏感度是不一样的,也可看成是对数关系。二是关于掩蔽效应指的就是声音A感知的闭值因为另外的身影的出现出现增大的现象。其生理依据主要是频率群,对频率群进行划分会出现许多的很小的部分,每一个部分都会对应一个频率群,掩蔽效应就发生在这些部分过程中。所以在进行相应的声学测量时,频率刻度一般取非线性刻度。语音识别方面,主要的非线性频率刻度有Mel刻度、对数刻度和Kon~nig刻度。其中Mel刻度被广泛的应用,其是最合理的频率刻度。(2)语音信号Mcl频率倒谱系数。Mel频率倒谱系数利用人们耳朵的听觉特性,在频域将频率轴变换为Mcl频率刻度,再变换到倒谱域得到倒谱系数。MFCC参数的计算过程:

篇6

由于生活节奏的加快,汽车已经成为了人们生活中重要的工具,人们在车内的时间也更多。同时也希望能够在车内接收到外界的信息继续进行工作,还要求汽车有娱乐功能,因此促进了车载多媒体的发展。而车载多媒体传统的人机交互方式会增加潜在的驾驶危险,为此将语音识别应用于车载多媒体系统中,将会是车载多媒体发展的重要方向。端点检测、特征参数提取以及识别是语音识别的主要内容,本文也将从这三个方向对车在多媒体系统的语音识别进行研究。

1、端点检测

在进行语音识别时,首先需要通过端点检测来对语音信号中的无声片段和有声片段进行分割。目前,语音端点识别已经从开始的单一门限发展到了基于模糊理论的判决。但是对于车载多媒体而言,计算量较大、识别响应时间较长端点检测的方法显然不使用,所以主要采用基于短平均过零率和短时间平均幅度的方法来进行语音端点检测,这种方法利用短时间内幅度的检测和过零率来作为语音端点的检测。

首先,利用短时幅度可以有效判断语音端点,同时语音的浊音部分平均幅度会明显大于噪声的平均幅度,然后同时再辅以短时过零率的方法来判断语音开始的浊音,从而进一步对端点检测进行校准,两者的结合能够更加精确的判断语音端点,并且两种算法都较为简单,能够满足车在多媒体的需求。

2、特征参数提取

在完成语音的端点检测之后,需要提取语音的特征参数,然后进行语音识别。目前用于语音特征参数提取的算法主要有LPCC(线性预测倒谱系数)和MFCC(Mel频率倒谱),由于MFCC具有更强的抗干扰能力等特点,更适合与噪声较多、司机不能离输入设备很近的车载环境。

分析MFCC的语音特征参数提取可以分成预加重、加窗、FFT(快速傅里叶变换)、滤波、自然对数提取、自然对数DCT计算这六个步骤。由于MFCC其计算精度以及计算量都较大,因此,使用MFCC作为车载系统的语音特征参数提取时,需要进行相应的改进:

(1)在MFCC实现的六个步骤中,例如加窗等步骤就可以实现进行计算,然后存储在数组中,在使用时进行查表提取,从而避免每一次语音识别时重复计算,从而加快了计算速度。

(2)FFT需要花费大量的时间(据统计,FFT需要花费MFCC56.32%的时间[2]),由于FFT算法是对复数进行处理,而语音信号的处理只涉及到实数部分,其虚数部分为零,因此增加了运算时间,因此可以利用文献3所提出的FFT运算方法,将长度为N的FFT预算降低到长度为N/2的FFT运算,从而提高了语音特征参数提取效率。

3、识别模式

语音识别的原理是模式匹配,通过计算现有语音模式与语音模板库中的模板的距离,来获得最佳的匹配模式。匹配的方法主要有DTW(动态时间规整)、HMM(隐马尔科夫模型)和ANN(人工神经元网络)。由于ANN计算量较大,因此不适合用于车载多媒体系统中,HMM需要繁杂的程序结构,包含众多功能模块,需要大量的计算。因此, DTW模式更适合用于车载多媒体系统中。能够满足车载系统孤立词、小词汇量的语音识别。

为了更好的在车在多媒体系统中的嵌入式平台上实现DTW,对DTW进行进一步的改进:

(1)由于在语音识别汇总,对音头和音尾的判断存在一定的误差,因此,使用传统DTW方法在进行固定端点匹配时会存在一定的误差,从而降低了语音匹配成功率。为此,可以采用放宽端点限制的方法来使用DTW进行语音识别。其主要的思路是取消传统DTW中对音头和音尾严格对其的限制。从而,只要两次语音在开始的W帧内能够匹配成功,同时在结束的W帧内匹配成功,即认为两次语音匹配成功。在降低了对端点检测的精度要求,符合车载系统小词汇量的特点,不会降低车载系统语音识别效率。

(2)在使用DTW进行语音模板匹配时,需要计算两个模板各帧的距离来计算模板之间的距离。加入模板库中的某个模板T有N帧,待识别的语音R有M帧,那么通常需要申请M×N长度的空间,再根据两个模板所有帧间距离计算整体长度。但是在实际的应用中,只需要M长度的空间来存放模板T第n-1帧与模板R中M帧之间的距离,在计算完第n帧与模板R中M帧之间的距离对M长度空间的数据进行替换,从而进行模板T第n+1帧与模板R中M帧之间的距离,从而节省了(N-1)×M的存储空间,这对车载系统有限存储空间的系统中有着非常重要的意义。

4、结语

相比于传统的按钮式、触摸屏式人机交互系统,语音识别对于车载多媒体系统有着非常重要的意义,将是车载多媒体系统重要的发展方向,本文针对车载多媒体系统对低CPU运算时间和地存储空间的特点,对语音识别中的端点检测、语音特征参数提取以及识别模式的实现和优化进行了研究。

参考文献

[1]方敏,浦剑涛,李成荣.嵌入式语音识别系统的研究和实现[J].中国信息学报,2004,(6):73~78.

[2]万春,黄杰圣,曹煦晖.基于DTW的孤立词语音识别研究和算法改进[J].计算机与现代化,2005,(13):4~6.

篇7

随着广播电视管理的不断完善,对电视节目内容的监管也越来越严格,对音频搜索等技术的需求也在逐渐增加。但是,音频搜索技术还有很多难题尚未解决,如中文分词瓶颈、第三方数据存储量限制、数据处理分析瓶颈和音频识别准确度等等,这样在应用时会出现很多问题,相关部门需加大研发力度,让音频识别技术更加完善和规范。

1 语音识别关键技术介绍

1.1 语音模型自适应技术

因为环境、人的性别和口音等因素的干扰,语音数据会产生较大变化,在特殊条件下的训练无法推广应用,而自适应就可以根据测试数据进行调整避免误判。在变换的自适应中,采用相同的变换更新参数,当自适应模型参数确定后,就可以用少量自适应数据变换方程,利用变换方程来重新估计模型参数[1]。一般来说,变换方程的数目小于目标模型参数,所以使用少量自适应数据就可以估计出变换方程。但是变换方程并不能探测出单个模型的特征,其渐进性较差,无法估计特征相近人模型。

1.2 说话人识别技术

说话人识别也被称为声纹识别,通过语音信号来识别说话人的身份。说话人识别主要分为两类,即开集识别和闭集识别,两者主要通过是否需要拒识来区别。开集识别更具普遍性,相比闭集识别技术更难。比如说,我们同时监听多个人说话,开集识别需要在多个说话人中找到指定的说话人。开集说话有两大缺陷:虚警错误和漏报错误,两者之间互相制约互相影响。在应用过程中,可调整识别模块更倾向于少虚警错误或漏报错误。研究中会通过等错误率去判断说话人识别系统的性能是否达标,如果虚警错误率和漏报错误率相等就是等错误率[2]。等错误率会受到测试语音长短、样本语音信道匹配度和说话人语音长短等因素的影响,如果说话人语音越长,测试语音也就越长,两者的差异也就越小,等错误率也会相应降低。

1.3 P键词识别技术

关键词识别技术分为单阶段系统和两阶段系统两大类,单阶段系统识别主要是在关键词系统中进行识别,当关键词出现变化,系统就要重新识别。两阶段系统是将一般意义的连续语音转换为文本,然后借助文本匹配途径找到关键词。这种系统比较灵活,可以随时变换关键词,是目前使用最多的关键词识别技术。通过语音关键词检测特定内容具有两个优势:首先是准确率更高,其次是关键词会多次出现。这样在内容监管中就可以允许出现漏检错误,不必每次都准确地识别关键词。

2 语音识别技术的具体应用

2.1 音频模板匹配技术

在已知节目片头曲的条件下,可以使用音频模板匹配技术进行自动打点和分割。因为受到音频压缩和信号传输的影响,导致模板之间存在差异,就可以通过提取多频带能量相对比率,利用各个频带能量分布趋势稳定的特点,就可以解决音频信号扭曲造成的不稳定问题。

2.2 音频切分和分类技术

在处理广播电视音频信息的时候,例如语音识别和检测关键词,需要先对广播电视的音频进行切分,一般都会采用静音检测法来切分,这样可以准确定位,为音频分类工作奠定了基础。对切分的音频片段进行分类,需要根据音频类型采取不同的处理方法。非静音主要分为语音和非语音两类,而语音又分为纯语音和非纯语音,非语音分为音乐和环境音。

2.3 自动发现技术

将广告识别作为案例,利用音频检测获取新广告:首先是针对未知节目和广告而设计,因此需要去除已知模板,这样可以减少计算量。接着是利用音频向量的快速搜索算法确定重复片段的预留位置,因为音频向量都是通过音频段的信息展开检索,就会出现音频字分布相同、但排列不同的音频片段,也会有一些错误片段,所以需要筛选过滤一遍。最后是利用音频指纹搜索找出音频向量模型的重复片段。因为音频指纹检索技术是利用音频帧的排列信息开展工作,所以准确度更高,可以检测出误报片段。完成上述步骤以后,就可以通过图像帧变化率来区分非广告的重复部分。因为广告的播出费用是按照播放时间来定的,所以广告商需要在有限的时间内向观众传递更多的信息,所以视频帧的变化率就比较大,而电视剧的变化率较小,这样就可以去除重播的非广告类节目[3]。

3 结语

随着科学技术的不断发展,语音识别技术的应用范围也越来越广,识别的准确度也在不断提高。广播电视对语音监管的要求也在提高,语音识别技术必须达到要求,这样不仅可以提高节目的搜索速度,对关键内容进行快速定位,还可以减轻工作人员的工作压力,提升监管水平。

参考文献

篇8

Research Status and Development Trend of Russian Speech Recognition Technology

MA Yan-zhou

(PLA University of Foreign Languages, Luoyang 471003, China)

Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.

Key words: speech recognition; hmm;russian acoustic models; russian language models

俄语(Русскийязык)[1]是俄罗斯和联合国的官方语言,也是我国少数民族正式语言。在前苏联和俄罗斯使用,俄语在苏联时期具有很重要的地位,直到现在仍然有些独联体国家在广泛使用,虽然这些国家已经开始强调本地语言的重要性,但在这些国家之间依然使用俄语进行交流。全球有超过一亿四千万把俄语作为母语使用,有近四千五百万人以第二语言使用,使用俄语媒体的有3亿多人。我国俄罗斯族使用俄语进行交流,聚集地分布在新疆地区的阿勒泰、伊犁、塔城及内蒙古呼伦贝尔市的额尔古纳、满洲里等地,

语音识别(Speech Recognition)[2]是指在各种情况下,识别出语音的内容,让机器听懂人说的话,根据其信息而执行人的不同意图。它是一门交叉学科,涉及与计算机、语音语言学、通信、信号处理、数理统计、神经心理学人工智能、和神经生理学等学科。能够能满足不同需要的语音识别系统的实现已经成为可能,它的前提是模式识别、信号处理技术、计算机技术和声学技术等的发展。近年来,军事、交通等领域,尤其在计算机、人工智能等领域得到广泛应用。

俄语语音识别是一个有巨大潜力的研究方向,不仅能够为人们的生产生活、日常交往提供极大的便捷性和高效性,而且在政治、军事、经济等各个领域都有着重要的研究价值和应用前景。本文着重介绍语音识别发展历程、阐述俄语语音识别关键技术、分析俄语语音识别未来的发展趋势。

1 俄语语音识别的现状

俄语连续语音识别取得快速发展,利益于技术的进步。随着语音识别在技术层面的不断突破与创新,对英语的识别慢慢成熟,然后逐渐扩展到其他语种如汉语、俄语等。

1.1语音识别技术的发展

20世纪50年代,语音识别的研究开始借助机器来实现。1952年,一个特定人独立数字识别系统[3]由贝尔(Bell)实验室的Davis、Diddulph和Balashelk首次研制,该系统成功识别10个英语数字。1959年,英格兰的Fry和Denes利用谱分析技术和模板匹配技术,提高了音素的识别精度,建立了一个能够识别9个辅音和4个元音的识别系统。20世纪60年代,经过Faut和Stevens的努力,语音生成理论初步形成。动态规划方法[4]由苏联的Vintsyuk提出,并实现了对两段语音进行对齐。70年代取得一系列重大突破,基本实现孤立词识别。俄罗斯推进了模板匹配思想在语音识别中的应用;利用动态规划方法实现语音识别也由日本的科学家实验成功。20世纪80年代,语音识别研究的一个主要特点是由模板匹配方法向统计建模方法的转变,特别是隐马尔可夫模型[5-6]。尽管HMM众所周知,但是直到20世纪80年代中期HMM模型才广泛被世界各地的语音识别实验室熟悉和采纳。另一个新方向是利用神经网络解决语音识别问题,促进了该技术在语音识别领域的应用[7-9]。20世纪80年代后期,在DAPRA的支持下,对大词汇连续语音识别系统的研制也取得了显著的成果,研究机构主要有CMU、BBN、林肯实验室、MIT、AT&T贝尔实验室。

20世纪90年代以来,语音识别开始实用化研究,并取得了突破性的进展。其中算法的研究取得了非常明显的效果,并提升了系统的性能,如最大似然线性回归(Maximum Likelihood Linear Regression, MLLR),最大后验概率准则估计(MaximumA-Posteriori Estimation, MAP),以及用于模型参数绑定的决策树状态聚类等算法,这些算法的不断优化,也使得应用于实际的语音识别不断出现。最具有有代表性的系统有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform语音平台,IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美国国家标准和技术研究所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不断推动下,各个研究机构不断尝试语音识别任务,目的是不断提高识别的性能。进入21世纪,在向广度和深度两方面,自动语音识别得到了更为广泛的研究。鲁棒性语音识别,进行了了细致的调研,特别是在置信度和句子确认方面非常有效,尤其对处理病句。在21世纪的前10年,信息技术领域最重要的十大科技发展技术之一就有语音识别技术的一席之地,人机接口关键的语音识别技术,已经成为一个具有竞争性的新兴高技术产业,它的实用化研究将成为未来的方向。

1.2俄语语音识别技术的发展

语音技术的研究主要集中在几个主要的语言,如英语,法语,西班牙语,汉语和西班牙语,一些其他语言尤其是东欧语言很少受到注意。但是近几年在俄罗斯,捷克,波兰,塞尔维亚,克罗地亚等俄语区对俄语语音技术的研究活动正在稳步上升。

俄罗斯科学院紧跟世界语音识别技术的发展,结合俄语自身的独有发音特点进行了卓有成效的研究并取得了一系列的成果。在开发声学,词汇和语言模型时采取特别重视俄语的细节,对于声学模型,采用知识和基于统计的方法来创建几个不同的音素集10。对于语言模型(LM),从不同网站自动收集新闻文本语料,用统计分析的方法将训练文本数据和语法相结合,计算不同情况下n-gram中单词的频率,优化n-gram模型,以建立更好的n-gram模型[11]。在基本语音识别单元的问题上采用距离最小信息不匹配的原则,建立语素级单元,显著减少误差概率[12]。

语料库是语音识别最基本的支撑,文本语料和口语语料都是一个语料库不可或缺的组成部分,任缺其一则语料库就不能反映该语言的完整信息,也没有办法在此基础上进行大词汇、非特定人连续俄语语音识别的研究[13]。俄罗斯对语料库的研究起步比较晚,在20世纪一直落后于世界语料库的发展,缺乏系统的理论研究和先进的实践成果。但近十年来,随着俄罗斯国家语料库建立和不断完善,俄语语音技术的研究正在慢慢兴起并取得了一些瞩目的成就。

国内对俄语语音的研究主要集中在教学方面。使用统计的方法,基于HMM对俄语语音进行建模和识别研究,目前还没有发现相关的文献记录。

2 语音识别技术

语音识别系统根据角度、范围、性能等差别,有以下的分类。

根据词汇量的大小分可为小词汇量(10至100)、中词汇量(100至500)和大词汇量(大于500)。根据发音方式可分为孤立词(isolated word)识别、连接词(connected word)识别、连续语音(continuous word)识别等。根据说话人特征可分为特定(speaker-dependent)说话人和非特定(speaker-independent)说话人。根据语音识别的方法不同进行了模板匹配、随机模型和概率语法分析等分类方法。

2.1 语音识别基本原理

通过计算机的辅助功能把输入的语音信号变换为对应的文本和命令,并且能够接受人类的语音、理解人类的意图,是语音识别技术研究的根本目的。语音识别系统核心是一套语音取样、识别、匹配的模式匹配系统[2],基本原理如图1所示。

语音识别系统由三个基本单元组成,它包含特征提取、模式匹配和参考模式库,虽然它是模式识别系统,但它的结构要比普通的模式识别系统要复杂,因为语音所包含的信息是复杂多样的语言信息,结构也是多变的。首先对输入的语音信号进行预处理,预处理包括适当放大信号功率并对增益进行有效控制,之后进行反混叠滤波以消除信号的干扰;然后将模拟信号转化为数字信号即数字化处理,便于存储和处理;然后进行特征提取,并使用一些参数来表示的语音信号的特性;最后对其进行识别。语音识别又分为两阶段:训练和识别。在训练阶段,利用特征参数表示语音信号的相应特征,得到标准数据即模板,将模板构建成一个数据库即模板库;在识别阶段,将语音特征与模板库中的每一个模板进行比较,找到了最相似的参考模板,这就是识别的结果。

2.2 HMM模型技术

语音识别早期采用的有矢量量化(Vector quantization, VQ)技术、动态时间规整(dynamic time warping, DTW)技术等,从处理难度上看,最简单的是小词汇量、特定人、孤立词的语音识别,最难解决的是大词汇量、非特定人、连续语音识别。当今语音识别系统采用的主流算法是HMM模型技术。

HMM模型的状态不能被直接观察到,但可以通过观测向量序列来观察到,这些向量都是通过某些特定的概率密度分布来表现为各种状态的,每个观测向量都是由一个状态序列产生的,这些状态序列具有相应的概率密度分布。HMM是一个双重随机过程:具有一定状态数量的隐马尔可夫链和显示随机函数集。HMM的基本问题及解决算法6-9

1)评估问题(前向算法)。

现有观测序列O=O1O2O3…Ot以及模型参数λ=(π,A,B),如何计算观测序列的概率,进一步可对该HMM做出相关评估。利用forward算法分别以每个HMM产生给定观测序列O的概率进行计算,然后从其中选出最优秀的HMM模型。

经典应用例子就是语音识别。在HMM的语音识别描述中,每个单词对应一个HMM,每个观测序列全部由一个单词的语音来构成,单词的识别可以通过评估而选出最可能的HMM,此HMM由产生观测序列所代表的读音实现。

2)解码问题(Viterbi算法)

现有观测序列O=O1O2O3…Ot以及模型参数λ=(π,A,B),如何寻找最优的隐含状态序列。此类问题比较关注马尔科夫模型中的隐含状态,在这些状态中虽然不能直接观测,但价值更大,可以利用Viterbi算法来解决。

实际例子是进行分词,分词问题可以用HMM来解决。这句话的分割方法可以看做是一个隐式的状态,而这句话可以被视为一个给定的条件,从而找出基于HMM的可能正确的分割方法。

3)训练问题(Baum-Welch算法即前向后向算法)

此时HMM的模型参数λ=(π,A,B)未知,对这些参数进行调整,使得观测序列O=O1O2O3…Ot的概率最大,使用Reversed Viterbi算法以及Baum-Welch算法可以解决。

2.3 大词汇量连续语言识别

在语音识别研究中难度和挑战性最大为课题应该是基于大词汇量的、非特定人的连续语音识别[13]。在词汇量大于1000词的时候,比较容易混淆的词数量增加,误识率约为基于小词汇量的、特定人的孤立词识别系统的50倍左右。而且还带来两个重要的、不易解决的问题:语流的切分和连续语音的发音变化。此时采用统一框架可以有效解决这个问题。大词汇量连续语音识别总体框架[14]如图2所示。

俄语语音信号分析后,形成特征向量,并通过字典识别模型,然后,根据语言模型的语法,将输入的语音与模板匹配,在句子层面进行组合。从俄语声学模型、俄语语言模型叙述大词汇量连续语音识别的过程。

2.3.1声学模型

设计俄语语音识别系统底层相应的HMM子词单元模型,需要充分考虑俄语声学和语音学的特征。俄语基本声学单元的选择是声学建模过程中一个基本而重要的问题。在俄语连续语音识别中,可供选择的基本单元包括词、音节、元辅音等。识别基本单元的选择一般基于语音学知识。

俄语字母是语音的书面形式,每个俄语字母都有自己的字母名称。元音字母的名称和读音相同,辅音字母的名称是在该辅音后加一个元音[15-16]。如字母с的名称为эс,字母б的名称为бэ等。字母名称通常用于读某些缩写词。俄语字母共有33个字母如表1所示。

根据俄语词的发音特征、音节的发音特征和字母的发音特征,选择音素作为子词单元,然后就可以进行HMM训练,首先用一种很粗糙的方法进行初始分段,然后向前向后算法或K-均值算法用于多次迭代,自动收敛到一个最佳的模型,并实现了一个合理的子词分割。这样就可以初步完成俄语的声学建模,建设一个俄语语音参考模式库。

2.3.2 统计语言模型

自然语言处理问题必然要乃至统计语言模型[17],如语音识别、机器翻译、分词、词性标注等等。统计语言模型是计算概率的模型,即。使用语言模型,可以确定一个单词序列的概率,或给定一个单词的数目,它可以预测下一个最有可能的单词。

那么如何计算一个句子的概率呢?给定句子(词语序列),它的概率可以表示为:

由于上式中的参数过多,因此需要近似的计算方法。下面介绍适用于俄语的n-gram统计语言模型。

n-gram模型即n-1阶马尔科夫模型,首先假设:当前词的出现概率仅仅与前面n-1个词相关。因此(1)式可以近似为:

当n值为1、2、3时,n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率。N取值越大,模型越准确但计算越复杂计算量越大。在俄语语言模型的建立过程中,采用最多是二元模型和三元模型。

2.3.3 连续语音识别系统的性能评测

评定连续语音识别系统的优劣,观测系统的性能,一般都是针对不同的识别任务,不同的任务单词库和任务语句库,需要不同的评价标准。如果要想粗略地评估某个系统,可以从两个方面去考虑,一是系统识别任务的难易程度即复杂性;另一个是采用该系统的识别系统的识别方法对该难度的识别任务的识别效果即识别率。在连续语音识别系统中,通过对音素、音节或词的识别率进行识别性能评价,常用的系统参数是正确率(正确率),错误率和识别准确率。

其中的正确数、转换数、插入数和脱落数,采用主观的方法来目测,马可以通过统计的方法来得到。

2.4 HTK工具

语音识别过程涉及的算法复杂,其中最为著名的HTK由剑桥大学研发,主要用来建立基于HMM的大规模连续语音识别系统。该软件集为开放源代码,可以在UNIX/Linux和Windows环境下运行。HTK提供了一系列命令函数用于语音识别,包括一系列的运行库和工具,使用基于ASNIC模块化设计,可以实现语音录制、分析、标示、HMM的训练、测试和结果分析。整个HTK的工作过程包括数据准备、模型训练和识别过程。

3 语音识别的应用

随着计算机技术的进步、算法的不断优化、信息处理技术的智能化,俄语语音识别技术的发展会越来越光明。应用的范围也会越来越广,可能会出现一些新的应用。

1)俄语语音信息检索

网络技术和多媒体技术的迅速发展,数据量急剧增多,如何在海量数据中挑选出有用的信息,并进行相应的分类和检索,对合理地利用信息资源具有重要的意义。多媒体检索技术应运而生。

2)俄语发音自学技术

非母语语言学习成为目前教育领域的一个热点,而自学是语言学习的一个有效途径,它具有不受时间和空间限制、灵活方便的特点,一种称为计算机辅助语言学习的技术诞生了。有几个普通问题和关键技术是必须要考虑和解决的:标准发音语料库和非标准发音语料库、学习者发音的分级标准、语音对齐、衡量发音质量的评判标准和发音矫正。

3)基于俄语语音情感处理

人与人的交流,除了语言信息外,非语言信息也起着非常重要的作用,包含在语音信号中的情感因素[18],也反映了信息的一个方面。情感的分析和识别也是一个非常困难的研究方向。

4)嵌入式俄语语音识别技术

后PC时代智能终端的飞速发展,为人机之间的自然、快捷交互提供了可能。当前嵌入式语音识别的应用领域还比较有限,未来应用可能会更加广泛。

4 总结

语音识别技术的实用研究是一项极具挑战性的工作,虽然经历了近半个世纪的发展,取得了一些突破性的进展。语音识别技术在俄语方面的应用更是如此,不仅要解决语音识别技术本身的问题,还要解决高质量的俄语语音语料库和文本语料库的问题,同时还要解决各种算法与俄语适应和匹配等其他问题,如俄语自然语言的识别与理解、俄语语音信息的变化范围与幅度、俄语语音的清晰度、俄语语音发音与环境噪声及上下文的影响等等。虽然面临诸多困难,但是随着人类文明的不断发展与科技的不断进步,相信这些问题会在不久的将来逐一得到解决,展现在人们面前的是更加流畅、更加智能的人机交互界面。

参考文献

[1] 赵力.语音信号处理 [M].北京:机械工业出版社,2011:191-215.

[2] 韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2013:241-255.

[3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.

[4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.

[5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.

[6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.

[7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.

[8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.

[9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.

[10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.

[11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.

[12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.

[13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.

[14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.

[15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.

篇9

 

1.1 项目背景

 

目前,固网用户拨打电话,必须先查出被叫的号码,并按键进行拨叫。而随着通信业的发展,要记的电话号码越来越多,而目前大部分的固定电话都没有号码存储的功能,所以很多时候使用固话打电话时,要么从手机上查找被叫的电话,或者是从纸制电话簿去查找,既不方便,又浪费时间。

 

“语音电话本”完全可以帮助用户解决以上问题,用户只需拨打一个号码接入系统平台,说出联系人的姓名,系统就可以自动将话路转到该人的电话上。整个过程通过自然的语音方式交互,即感到亲切自然方便快捷,又节省时间,提高工作效率。

 

从服务管理的角度来看,随着信息通信客服业务受理的不断发展,座席客服话务量越来越多,用户对服务的质量要求也越来越高,传统客服系统在传统语音信息处理上的局限性制约了系统服务和管理能力的提升。

 

服务方面,由于业务的多样性和复杂性带来的海量数据信息不能得到快速、有效的关联处理而产生的问题,影响了客户服务体验。

 

运营管理方面,雇佣人工座席每天接听大量的信息查询电话,座席业务人员的更替带来的培训,消耗了部分运维成本,影响了服务质量。

 

1.2 建设目标

 

本项目通过研究智能语音技术在国网辽宁公司信息通信客服系统中的应用,将语音识别及客服查号业务相结合,使用先进的语音识别技术来代替繁重的人工劳动,提高省公司内部沟通的效率。目前,语音电话本技术实现主要包含:ASR 、TTS 、IVR 三项技术,其中TTS和IVR技术对于语音电话本业务来说已经非常成熟。

 

ASR语音识别技术近年来发展十分迅速,其应用也逐步得到推广,佳都新太也一直开发、调试、应用这项重要的语音技术,自2001年以来佳都新太先后在广西、天津、广东、河北、湖北、江苏、辽宁等省的多个项目中使用了ASR 自动语音识别系统,佳都新太通过对ASR测试、改进,自动语音识别率达到95%以上。

 

语音电话本业务可以说是CTI平台上的典型应用,佳都新太把ASR语音自动识别技术、TTS语音合成技术与CTI 的IVR技术三者融合为一体,为语音电话本业务的技术实现提供了可靠的保障。

 

本项目可以达到目标:

 

1.2.1 对语音信息的自动化处理

 

通过建立具备智能语音分析能力的语音识别平台,实现对用户查号业务的语音实时识别及关联处理,同时实现对语音文件的统一分析,提供支撑客服业务受理的有效工具。

 

1.2.2 文件分析处理

 

通过语音分析引擎对送入的语音进行文字转写、维度结合后生成索引文件,这些结构化的索引文件中包含了语音中的所有信息。索引文件存储到数据仓库中,通过对有效的海量录音文件、音频文件进行分析处理。

 

1.2.3 实现自助查号功能

 

通过实现语音中的知识挖掘和语音文件的快速检索,实现自动语音查号功能。

 

2 项目技术方案

 

2.1 项目设计原则

 

本次项目是对省公司固定电话语音自动查号系统的功能完善,使用先进的语音识别技术来代替繁重的人工劳动,提高省公司内部沟通的效率。

 

本次项目的关键点和技术难点在于语音识别,因此在方案设计过程中我们着重考虑了这个问题,选用了国内领先的智能语音技术来作为语音识别引擎,结合座席客服系统的需求提供定制化专业服务。

 

2.2 整体架构设计

 

如图1,用户通过拨打查号服务电话,系统为用户播放自动语音并引导用户按键选择功能和需要查号的人名,系统根据语音分析出内容,并在数据库中查询对应的号码,系统将查到的号码以自动语音方式播报给用户。

 

系统部署需新增接入网关1台,用于与电力内部电话程控交换机对接,实现平台电话呼入呼出。采用电信级语音接入网关Dialogic DMG2030,接入规模1E1(即30路通话),PRI信令,通过电路中继上联到辽宁电力内部程控交换机。辽宁电力内部程控交换系统为语音电话本系统分配一个内部接入服务号码和一个外部接入服务号码。同时网关接入虚拟资源池虚机网络。

 

新增虚拟资源池虚机1台,用于部署媒体处理软件、CTI平台、语音电话本业务应用软件、科大讯飞ASR软件和TTS软件、Oracle数据库。

 

新增核心网络交换机1台,用于系统组网。

 

2.3 系统逻辑结构

 

IVR与TTS、ASR通过语音引擎实现整个语音交互过程的自动识别、自动播放功能。系统采用B/S结构,方便用户对电话本的修改,也便于各营业网点的开户、受理以及对用户的电话本进行维护等。整个系统采用模块化结构,具有很高的可靠性和可扩充性。

 

逻辑结构见图2。

 

2.4 系统建设方案

 

新建“语音电话本”业务平台,其网络拓扑结构如图3所示。

 

设备组成说明:

 

系统平台需要以下设备:

 

(1)IPS数字排队机;

 

(2)信令网关节点;

 

(3)数据库服务器: 实现用户数据的存储和系统认证等功能;

 

(4)TTS服务器: 通过IPS平台的MS模块来实现资源调用;

 

(5)ASR服务器:通过IPS平台的MS模块来实现资源调用;

 

(6)WEB服务器:实现用户通过互联网对电话簿的维护管理功能;

 

(7)业务处理服务器:用于处理个人语音电话本业务流程;

 

(8)管理维护节点;

 

(9)路由器和防火墙等网络设备;

 

2.5 配置计算依据

 

2.5.1 中继和语音的配置比例

 

语音电话本业务,用户报出要找的人的姓名后,ASR进行识别,系统根据ASR识别出的名字,找出对应的电话号码并进行外呼,被叫接通后,主被叫进行通话的过程中,语音资源即可释放。整个业务实现和呼叫卡类业务的资源配置非常相似,根据200业务的实际运行经验数据,建议中继和语音的比例为4:1。

 

2.5.2 中继和ASR的配置比例

 

在一个呼叫的过程中,用户说出要找人的姓名,ASR资源进行识别,在识别完成系统呼通被叫后,ASR资源释放,主被叫双方进行通话,按平均呼叫时长为150秒,其中ASR识别的时间大概为30秒,而在一次通话中占用一入一出两个通道,按上面的估算数据,中继和ASR的配比大约为 2×150/30=10:1。

 

2.5.3 中继容量和所能支持的用户数的比例

 

假设一些呼叫参数如下:

 

系统中继容量A

 

用户数 B

 

每用户每天使用次数C:8次

 

每次呼叫时长D:150秒

 

忙时集中系统E:10%

 

忙时中继Erl数F:0.8

 

根据公式:A=B*C*D*E/F/3600

 

则 A:B=8×150×10%/0.8/3600=1:24

 

因为语音电话本业务每次呼叫要占用一入一出两个端口,所以中继容量和所支持的用户数的比例约为1:10。

 

2.5.4 数据库处理能力计算

 

忙时TPMC=(忙时呼叫次数×(平均每次呼叫数据库访问次数+其他应用模块平均每次呼叫事务访问处理次数))/60

 

按4.3.3假设的数据,当使用语音电话本的用户数为10,000用户时,系统的忙时呼叫次数为 10000×8×10%=8000次/小时

 

按每次呼叫对数据库的访问操作次数为10次来计算,则10,000用户时,对数据库的TPMC值的要求为:

 

TPMC=8000×10/60=1333

 

2.6 业务系统功能

 

2.6.1 业务流程(如图4)

 

2.6.2 声控拨号

 

用户使用绑定电话拨打接入号码“***”进入系统后,系统直接会提示用户报出用户想找的人的姓名,并进行呼叫。

 

(1)“联系人名字” 选中默认呼叫号码:

 

(2)用户拨打“语音电话本”服务号码;

 

(3)说出对方姓名,如:张三;

 

(4)系统识别语音,查询对应的默认电话号码;

 

(5)系统通过语音播报查询到的电话号码。

 

(6)“联系人名字+电话类型” 精确查询:

 

(7)用户拨打“语音电话本”服务号码;

 

(8)说出对方姓名+电话类型,如:张三 手机;

 

(9)系统识别语音,查询对应的电话类型的号码;

 

系统通过语音播报查询到的电话号码。用户通过绑定电话使用语音电话本业务流程如图5所示。

 

用户使用非绑定电话使用语音电话本业务时,必须先通过输入帐号和密码,经过系统鉴权后才能使用。

 

2.6.3 原始通讯录的录入

 

语音电话业务开展的一个关键问题,就是用户申请该业务后首批通讯录的录入问题,首批通讯录相对来说量比较大,录入的方式建议采用营业厅前台填表录入、通过WEB录入的方式,也可以采用电话、传真、信函的方式进行录入。在首批通讯录录入后,用户在使用过程中做一些号码本的修改和维护,维护量都比较小,可以通过WEB方式、电话、短消息、传真等多种方式进行修改。

 

批量导入电话本:

 

通过Excel文件导入企业通讯录,可以参考如表1格式。

 

可以根据实际需求增加其他列。

 

2.6.4 电话本维护(Web)

 

系统提供后台管理界面,管理员登录后台对电话本进行管理,如图6。

 

个人电话本资料可通过Web、人工坐席、电话、传真、短消息等多种方式进行电话本资料的维护管理,包括修改用户密码等。

 

业务流程如图7所示。

 

“增加、删除、修改”用户记录:

 

系统提供对单个记录的“增加”、“删除”、“修改”功能,方便对电话本进行灵活管理。

 

2.6.5 多个号码优先呼功能

 

当用户录入的某个联系人有多个通讯号码时,如有手机、小灵通、固定电话,可以把这些号码都录入在系统中,在呼叫时,用户可以自行设置优先呼叫的号码,在号码不通时再按设置的优先策略逐一呼叫被叫其他的联系方式。

 

2.6.6 信息查询(Web)

 

系统提供电话本查询界面给座席和管理员使用。

 

座席和管理员可根据联系人姓名,查询联系人对应的所有电话信息。

 

该功能主要在座席提供人工服务时使用。

 

3 技术创新点

 

本次项目采用国内领先的智能语音识别技术(ASR)结合客服后台定制化查询需求,在满足用户传统的查询基础上,语音定制化为用户报出相关信息,由用户按键选择即可,大大方便了用户的操作和客服的工作时间。

 

4 总体性能指标

 

通过研究智能语音技术在信息通信客服系统中的应用,实现客服查号业务的自能化,实现语音的自动识别及数据分析,减少人工运维成本,提高客服服务质量及服务效率。

 

5 技术展望

 

篇10

随着科技的发展,语音交互逐步走了进人们的生活中。例如苹果手机中Siri和Win10系统中小娜都已被人们所熟悉,小米语音识别遥控器也给智能家居带来新体验。考虑到智能语音识别技术在未来科技和生活中的普及是必然,我国在上世纪末期已开展对其的研究。因此,将非特定性语音识别技术运用到智能家居中,并以语音控制方式进行控制家具电器设备,为人们的生活带来了很大的便捷[1]。

1 语音识别系统简介

语音识别技术其任务是将人类的声音转换成计算机可识别的信息。语音识别技术过程为:语音信号采集、预处理、特征信号提取、根据库模板测度估计、语音识别、语音输出[1]。

语音识别技术有两方面的应用[2]:一是连续语音大词汇语音识别系统,应用于听写机及语言信息查询服务系统;二是体积小、方便携带的语音设备,如智能手机、玩具、家电遥控器等。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术[3]。语音识别技术过程为:语音信号采集、预处理、特征信号提取、根据库模板测度估计、语音识别、语音输出。

2 系统主要硬件组成

2.1 语音识别系统的硬件总体设计

本系统包括语音信号采集模块、语音信号调理模块、单片机控制模块、语音识别模块、液晶显示模块、控制执行模块等[1]。

语音信号调理模块包括自动调整增益电路和带通滤波电路。语音信号强度会随传播距离的增加成指数下降,为了防止近距离出现饱和限幅现象,因此采用自动调整增益电路[1]。人类的语音信号主要分布在300Hz-3.4KHz,带通滤波电路可以有效地防止造成干扰,提高识别效率[1]。

2.2 单片机控制模块电路设计

市面上可用于语音识别的单片机多种多样,文章所用的是HR7P194单片机。HR7P194单片机具有单时钟周期短、运行速度快、性能稳定的特性,采用哈弗型RISC,66条精简指令集,工作频率最高16MHz,支持硬件除法器,支持17个中断处理,具有8KB Flash程序储存器、496字节的SRAM、1路8位定时器T8N、3路8位PWM时基定时器T8P1/T8P2/T8P3、1路16位门控定时器T16G、10位模拟数字转换器ADC、液晶显示控制器LCDC、41根I/O口线以及1个全双工异步串行口和1路IIC总线主控器IICM等。

HR7P194单片机控制模块最小工作系统电路如图1所示。

2.3 语音识别模块

以LD3320为核心的语音识别技术有语音识别和声音控制方面的优势,其优点是在不需要存储器及模数转换器的情况下,由HR7P194进行独立控制;此外LD3320是一款自定义关键词进行识别的芯片,用户语音操作便捷。

2.4 液晶显示系统

相较于其他显示方式液晶显示具有显示便捷、功耗小、使用寿命长的优势[4],基于液晶显示的优点文章采用LCD128*64液晶显示屏。LCD128*64这种通用模块其优点主要在能够显示文字、数字、字母及图形。利用该模块主要显示语音识别出的命令、处理器发出的控制指令及系统状态,同时利用其可以显示图形的特点,可以模拟显示人的声音动态波形,科技感更强。

3 系统软件设计

主程序开始先对包括单片机在内的所有元件进行初始化[4],包括单片机控制模块初始化、语音识别模块初始化、液晶显示模块初始化、控制执行模块初始化。初始化之后进行语音识别,通过对LD3320读写芯片的控制,获取语音命令,根据识别情况判断是否调用相应的子程序并进行数据处理,最后控制继电器和液晶显示。

4 系统测试

系统硬件实验平台设计、组装调试好后,通过东软载波单片机开发工具HR10M将程序下载到HR7P194单片机中。然后分别在一个没有噪音室内环境中和具有一定噪音的室外环境中进行语音训练。通过训练后分别在两种环境中进行测试:通过5人分别说出“开灯”“关灯”等命令来进行验证。实验结果为:语音识别系统对5种不同的声音均可良好的识别并做出相应的动作,在外界环境良好的状况下(无噪音的情况下),识别效率在92%以上;在具有一定噪音的室外环境中,识别效率有所降低,在85%以上。

经过长期、多次测试结果表明:本系统能够识别语音信息,识别效率高、性能稳定,适合智能家居环境的语音交互系统。

5 结束语

文章所构建基于HR7P194单片机和LD3320芯片的智能家居语音识别系统,能够有效地识别人的声音,实现语音控制电灯开关、风扇转速、电视及热水器等家用电器,同时东软载波单片机具有非常良好的稳定性,在后期产品稳定性测试中发挥重要作用。

参考文献

[1]陈涛,高必梵,艾菊梅.语音识别技术在智能家居控制系统中的应用研究[J].电子质量,2015(3):1-3.

篇11

语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。隐马尔可夫模型是20世纪70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。目前大多数连续语音的非特定人语音识别系统都是基于HMM模型的。[1]

一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。

而随着时频技术的研究发展,使人们在进行信号处理时,可以将语音信号分解在一组完备的正交基上。从而,语音信号的能量在分解以后将分散分布在不同的基上。但是,语音信号是一种典型的非平稳信号,其性质随时间快速变化,在两个不同的时间瞬间,在同一个频率邻域内,信号可以有完全不同的能量分布。因此,有必要找到一种精确表示语音信号时频结构,便于特征提取的方法。[2]

立足于此,本文提出,通过平移窗口,用余弦基乘以窗口函数,构造出局部余弦基,分离不同时间区间,很适合于逼近语音信号。本文使用这种具有活动窗口特性的局部余弦基表示语音信号。为了减少计算量,并进一步提高局部余弦基原子时频分布的分辨率,采用匹配追踪(MP)算法分解信号,并结合时频分析技术得到最优局部余弦基原子的魏格纳-维利分布(WVD)[2],从而得到信号精确的时频结构[3],进行特征提取。此外,结合语音信号的美尔频率倒谱系数(MFCC)一起作为该信号的特征向量,通过隐马尔科夫(HMM)模型进行识别。实验证明。这种多参数语音识别算法提高了识别的准确度和速度。

2.局部余弦基建模

通过光滑地划分时间序列为任意长度的子区间(如图1),可使每一个时间段分别由重叠正交基表示,而整个时间序列的基函数又构成时频平面的正交铺叠,因此局部余弦变换对在不同时间段有不同的波形的语音信号有很强的针对性。

图1 重叠窗口划分时间轴

Figure1 lapped window divides time axis

图1中为重叠窗口函数[3]:

(1)

式中为单调递增的轮廓函数,定义为[3]:

(2)

局部余弦函数族构成了实数轴上平方可积函数空间的规范正交基:

(3)

式中为窗口支集伸缩参数;为第P段时间起点;n()表示正交基序列号。

语音信号可表示为:

(4)

是余弦基原子,。其中是窗口支集边界参数,为窗口支集伸缩参数,是轮廓函数的尺度参数,这保证了窗口支集只与相邻的具有适当对称性的窗口重合,达到局部余弦基精确覆盖整个时频平面的目的。

3.匹配追踪法选取最佳基

由Mallat和Zhang引入的匹配追踪算法运用贪婪技巧减少了计算的复杂性。它从局部余弦基构成的冗余字典中一个一个挑选向量,每一步都使信号的逼近更为优化。

MP算法将信号分解成一簇时频原子的线性表达,这些原子选自高冗余度的函数字典中,且最好地符合内在结构。假设函数集是Hilbert空间中一个完备字典,满足,最优的M阶近似为:

(5)

设由M个时频函数近似的信号与的误差最小,表达式如下:

(6)

其中代表所选函数的索引。

首先按照某个选择函数(与的内积最大)逐个挑选出时频函数,分解为:,设初始输入信号为初始残差信号,表示f(t)在方向上近似后的冗余部分。

假设已有表示经过前M-1次迭代后,中未表达部分:选定为最匹配的时频函数,按如下公式分解为:

(7)

由于每步中与正交,如果字典是完备的,则迭代收敛于f,满足:

(8)

这样,可估算出(4)式中局部余弦基原子的参数。

文献[4]中提出,选出最匹配信号的基,对每一个基求出其WVD分布,信号的WVD分布就表示其最优基的WVD的线性组合,这样就消除了交叉项的影响。由此得到的WVD分布:

(9)

是局部余弦基字典中被选中的最优基的WVD分布。将等式左边第二项交叉项组合去除,这样在时频面上就得到了干净的时频表示:

(10)

在语音信号稀疏分解过程中,每步分解都要从过完备原子库中选出与待分解语音信号或语音信号分解残余最为匹配的原子,原子是由参数公式(4)决定的。因此语音信号稀疏分解所得原子的参数可作为语音信号的特征。此外,根据公式(10),使用匹配追踪法选取的最佳基的WVD分布,含有该语音信号重要且独特的信息,也可作为该语音信号的特征。

4.基于HMM的语音识别算法

特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。由于语音特征的短时平稳性,帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧移为帧长1/2。本文为了方便做MP,采用的帧长为512点(32ms),帧移为256点(16ms)。特征的选择需要综合考虑存储量的限制和识别性能的要求。通常的语音识别系统使用24维特征矢量,包括12维MFCC和12维一阶差分MFCC。本文提出的多参数语音识别算法,在此基础上增加了原子参数公式(4)和最佳基的WVD分布公式(10),这两维特征,构成26维特征矢量。对MFCC和语音信号能量的WVD分布分别使用了倒谱均值减CMS(Ceps-trum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性[5]。

在HMM模型中,首先定义了一系列有限的状态S1,…,SN,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:

(11)

以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:

(12)

且满足:

(13)

系统在任何时刻n所处的状态Xn隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量On。On的分布P称为输出概率矩阵,只取决于On所处状态:

(14)

因为该系统的状态不为外界所见,因此称之为“隐含马尔科夫模型”,简称HMM。在识别中使用的随机观察矢量就是从信号中提取的特征矢量。按照随机矢量Qn的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。

(15)

其中,M为使用的混合高斯分布的阶数;Cm为各阶高斯分布的加权系数。此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型[6]。在本识别系统中,采用孤立词模型,每个词条7个状态,同时包括首尾各一个静音状态;每个状态使用3阶混合高斯分布拟合。

5.仿真实验

5.1 提取最佳基的WVD分布特征矢量

构建局部余弦基字典,使用MP算法选取语音信号“A”的最佳基。如图2所示。得到的时频图既保留了余弦基原子高时频聚集性的优点,又削弱了WVD作为二次型时频表示所固有的交叉项的影响,得到了干净的时频面。其结果更精确的反映出语音信号在频率、音强方面的特征,具有良好的时频聚集性。

图2 “A“信号的WVD分布

Figure2 WVD of“A”

5.2 孤立词识别

在语音识别实验中,采用信号长度为1024的200个实际语音信号样本,其中100个用于训练,100个用于测试。该实验用以识别出语音信号”A”。实验利用WaveCN2.0录音系统进行样本采集,采样率为8kHz。得到语音信号的有效部分后,提取样本信号的MFCC参数作为语音信号的特征参数之一。Mel滤波器的阶数为24,fft变换的长度为256,采样频率为8kHz。MFCC的相关波形见图3。

图3 “A“信号的MFCC波形

Figure3 MFCC Waveform of“A”

然后利用MP算法将样本信号分解为300个原子,将所得原子的参数和最佳基的WVD分布,作为该语音信号的特征参数之二。见图2。通过HMM进行识别。

在实验中,设语音”A”类值为1,其他的语音类值为-1。HMM模型的状态数为7,高斯混合数为3。由第4节HMM训练的定义可知,重估过程中的输出概率是随着重估次数的递增而增加的,图4列出了“A”模型训练期间重估次数与总和输出概率的log值之间的关系。由图可以看出,“A”模型重估20次算法收敛,并且,输出概率与重估次数成正比趋势。

图4 重估次数与总和输出概率

Figure4 Iterations of EM and output like lihood

对语音进行上述HMM训练之后,将其模型参数存贮,获得了识别的HMM模型库。在识别阶段,对100个测试用数据进行语音识别,以检验本文系统的识别效果。如表1所示识别精度为89%,平均识别时间约为1.313秒,实验结果表明,系统识别率和运算速度都比较理想。

表1 识别结果

语音类型 识别次数 识别结果 识别精度

A 其它

A 100 92 8 92%

增加了局部余弦基原子的参数和最佳基的WVD分布作为特征参数,较单纯的使用MFCC作为特征参数进行HMM模型训练,识别率有一定提高,见表2。

表2 结果比较

特征参数 识别率%

MFCC、和特征参数 92

MFCC 89.5

6.结语

本文在传统基于HMM模型的语音识别基础上,通过匹配追踪算法,提取出最佳基的原子参数和WVD分布。二者与MFCC一起,作为本文提出的多参数语音识别算法的特征向量。然后选择了大量孤立词样本进行仿真实验,针对非特定人孤立词进行语音识别。结果表明,基于HMM和匹配追踪的多参数语音识别算法,可提高语音识别的速度和准确度,有一定的实用性。但是,由于算法的复杂性增加,运算量相应增大,简化算法运算量仍是需要深入研究的课题。

参考文献

[1]何方伟,青木由直.DP动态匹配算法实现语音的实时识别[J].数据采集与处理,vol.4,no.1,Mar,1989.

[2]R.R.Coifman,M.V.Wickerhauser.Entropy-based algorithms for best basis selection[J].IEEE Trans.Info.Theory,38(2):713-718,March 1992.

[3]S Mallat,Z Zhang.Matching Pursuit with Time-Frequency Dictionaries[J].IEEE Trans.Signal Processing,1993,41(12):3397-3415.

篇12

1997年,美国麻省理工大学的Picard教授首先提出了情感识别的概念,随后美国麻省理工大学、美国洛杉矶南加州大学、新加坡南阳理工大学等高校科研机构陆续并展了情感识别领域的研究。在国内,东南大学、中科院自动化研究所、清华大学、东南大学、西北工业大学、江苏大学等高校和科研机构也都开展了情感识别方面的研究。

二、语音情感识别模块构成

语音情感识别技术是根据人在不同情感下的语音信号非平稳性特征等比较明显的特点,通过提取语音的音质特征、韵律特征和频谱特征等声学特征来判断情绪的变化,语音情感识别模块大体包括语音采样、语音预处理、语音特征提取、语音特征处理、特征识别、情绪判断几个部分。

首先可设定采样的频率和时间长短,对语音进行采样并进行去噪、加窗、分帧等预处理,然后根据对不同情绪判断的需要分别提取语音的音质特征、韵律特征和频谱特征等声学特征如基音频率、共振峰、Mel频率倒谱系数、能量、样本熵等,再将提取的多种特征通过各种时频分析方法进行处理,如短时傅里叶变换(FFT)、希尔伯特变换(Hilbert transform)、经验模态分解(EMD)等,之后将特征参数送入相应的函数识别器(常用的一般为支持向量机SVM)识别特征参数的归属范围,最后根据多种语音特征融合后的识别结果来综合判断采样语音的情感种类。

三、语音情感识别技术应用的必要性

随着社会进步和生活水平的改善,客户对呼叫中心热线服务质量的要求也在不断提高,而呼叫中心主要通过电话与客户交流,依赖语音获取信息,与客户的接触渠道比较单一,这就需要我们结合国内外发展的新形势来积极寻求提升服务质量及客户感知的新方法以应对如下问题。

1 海量录音抽样质检的限制性

客服质检人员每天从几万条录音中只抽取几百或几十条录音进行质检,录音抽取范围一般是客户做出满意度参评或客服代表的专席转接的录音,无形中限制了录音质检的范围,而实际的问题是录音可能客户既没有参评、客服代表也未进行专席转接,故此很难发现录音背后隐藏的客户实际问题,录音质检的目的也会因此而大打折扣。

2 投诉处理缺少统一的标准

面对客户各种不同情况的投诉录音,不同的投诉处理人员会有不同的判断标准,继而会执行不同的处理流程,带给客户与客服代表的感知也会因此而有所差异,对客户投诉的判责依赖于个人感知的成分较多,缺少说服力和理论依据。

3 客户情绪感知的滞后性

若客户带着情绪或疑问拨入热线却在音调上故作平静,客服代表将很难在第一时间了解客户的切实想法和真实情感,无法对症下药、做出准确的应答,进而会放大客户的痛苦,激化客户的不满情绪,严重影响客户的感知。

4 客服代表的服务热情降低

客服代表常年工作在一线,每天面对大量不同客户近乎相同的问题,重复给出近乎相似的答案,容易产生一定的职业疲劳,在与客户的互动中会出现语音语调平淡的问题,自己本身却察觉不到,无形中影响了客户的感知和呼叫中心的服务质量。

四、语音情感识别的具体应用

结合目前国内外语音情感研究新兴领域的语音情感识别技术,可构建语音情感分析模块,针对以上提到的几点问题,实现在客服代表与客户人机交互的过程中的四项重要作用。

1 自动将语音筛选分类

语音情感识别模块可以将海量的录音根据客户情感的不同区分成不同的客户情感录音库,质检人员可以根据质检的需要和目的将分类后的情感录音库做为抽检录音的来源,再辅以日常常用的抽检标准进行质检,这样就精简了录音的抽检范围,提高了录音质检的针对性,增强了质检工作的目的性,更易于发现实际存在的问题。

2 投诉校准

语音情感识别模块可以通过采样客户的投诉录音,综合判断客户和客服代表情绪的归属类别,为投诉的判责提供标准和理论依据,进而规范和统一后续的处理流程,这样,即使不同的投诉处理人员也会给客户和客服代表做出相同的处理结果,使投诉处理工作更具有说服力。

3 客户情绪及时识别

语音情感识别模块可以通过实时采样客户的声音,在客户电话接入的前几秒对客户的情绪做出判断,特别是针对客户带着情绪或疑问拨入热线却在音调上故作平静、人耳难以识别的情况下,进而通过情感识别系统的反馈信息及时提醒客服代表客户情绪的异常,客服代表可以灵活转变问题处理的方式从而缩小客户的痛苦,提高客户的满意度。

篇13

随着高科技手段的发展与应用,依靠人的身体特征来进行身份验证的生物识别技术很好地解决了这一问题。在人脸识别技术方面,计算机所探索的任务就是通过计算机来识别相机摄取的二维图像,通过二维图像来识别二维物体信息。这些信息不仅包括二维环境中物体的几何信息,还包括物体的形状、位置、姿态、运动等信息,都可以通过计算机来对它们进行识别与理解。计算机利用各种成像系统代替视觉器官作为信息的输入手段,由计算机来代替大脑完成处理和解释。计算机技术、数字图像处理、计算机图形学、人工智能等学科的发展,为利用计算机实现模拟人类的视觉成为可能。人脸识别技术作为生物识别技术的一种,以其特有的稳定性、唯一性和方便性等特征,被越来越广泛地被应用在需要身份识别的领域。

1 计算机在生物识别技术和人脸识别技术方面的应用

1.1 生物识别技术

生物识别技术是利用人体的生物特征来进行身份验证的一种识别技术。由于人的生物特征具有人体所固有的不可复制的唯一性,因此这一生物特征密钥是无法复制、失窃或遗忘的。采用人体的生物特征作为密钥,用户不但可以不必携带大串的钥匙,也不用费心去记或更换密码,系统管理员更不必因忘记密码而束手无策。目前,常用的生物识别技术有以下几种:(1)人脸识别技术。人脸识别技术是人们最早使用的生物识别技术之一。该技术通过提取人脸图像的某些特征并对这些特征进行分析比较,从而达到识别身份的目的。(2)虹膜识别技术。虹膜识别技术利用世界上任何两个人的虹膜都是不一样的特征来进行身份鉴别。识别系统利用一台标准摄影机对用户的眼睛进行扫描,然后将扫描图像转化成数字信息与数据库中的资料核对,以验证身份。(3)语音识别技术。语音识别是对说话者声音和语言学的综合运用,是一种行为鉴定。它并不对词语本身进行辨识,而是通过分析语音的特征,例如发音的频率等,来识别说话的人。(4)签名识别技术。签名识别是这样一个过程:测量图像本身以及整个签名的动作在每个字母以及字母之间不同的速度、顺序和压力。(5)指纹识别技术。指纹识别系统就充分利用了指纹的唯一性、稳定性和再生性等特点,通过比较输入指纹和预先保存的模板指纹特征,进行身份验证。由于上述身份识别技术中的缺陷,如虹膜识别技术中的虹膜识别系统的价格还比较昂贵,语音识别技术与签名识别技术会随着人的生理特征以及环境的变化而改变等,计算机人脸识别技术得以更广泛的开发与应用。

1.2 计算机人脸识别技术

计算机人脸识别技术是利用计算机分析人脸图像,进而从中提取出有效的识别信息,用来“辨认”身份的一门技术。计算机的人脸识别所利用的是视觉数据。生理学的研究表明,人眼视网膜上存在着低层次和高层次的细胞。其中,低层次的细胞对空间的响应和小波变换的结果相似;而高层次的细胞则依据一群低层次细胞的响应,而作出具体的线、面乃至物体模式的响应。以此为依据,在计算机人脸识别中,可以将那些通过对图象数据简单处理后获得的特征定义为低层次特征,而将线、面、模式等描述特征定义为高层次特征。因此,图象KL变换后的系数特征、小波变换特征及一些统计特征均属低层次特征的范畴,而人脸部件形状分析的结果则为高层次特征。

2 关于人脸识别系统的组成

一个典型的人脸识别系统可以由如下的功能模块构成:(1)图像的获取。该模块从外界获取图像,作为人脸识别系统的输入。该模块可以是一个摄像头或者是扫描仪等设备。(2)人脸的检测与定位。处理分析从图像获取模块输入的图像,判断其中是否存在人脸,如果存在人脸则找到人脸在图像的位置,并且将人脸从背景图像中分离出来。该模块在整个人脸识别系统中具有非常重要的作用。(3)图像预处理。预处理的主要作用在于尽可能的去除或减小光照、成像系统、外部环境等等对于待处理图像的干扰,为后续处理提供高质量的图像。这部分对检测到的人脸图像进行几何的归一化、消除噪声、和灰度归一化、水平与垂直位置的校正等处理。为后面的特征提取创造条件。(4)特征的提取和选择。该模块完成从经过预处理模块处理的图像提取可以用来识别的特征,将原始图像中的数据映射到特征空间。(5)训练,也可称为分类器设计。此过程结束后将生成可用于识别的参数,也就是可用于分类识别的分类器。事实上,模式识别问题可以看成是一个分类问题,即把待识别的对象归到某一类中。在人像识别问题中就是把输入的不同的人像归入某个人这一类。这部分的基本做法是在样本训练集基础上确定某个判决规则,使按这种判决规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小。(6)识别。根据训练所得的参数完成人脸的判别工作,给出最后的识别结果,并做出相应的判断。

3 人脸识别技术在商业银行方面的应用

从应用角度看,人脸确认可应用于自动门禁系统、身份证件的鉴别、银行ATM取款机以及家庭安全等领域。具体来看主要有:(1)公共安全:公安刑侦追逃、罪犯识别、边防安全检查。(2)信息安全:计算机和网络的登录、文件的加密和解密。(3)政府职能:电子政务、户籍管理、社会福利和保险。(4)商业企业:电子商务、电子货币和支付、考勤。(5)场所进出:军事机要部门、金融机构的门禁控制和进出管理等。

3.1 商业银行存在的网络安全问题

随着现代计算机技术在金融领域的应用,为了实施金卡工程,我国建立了中国银联信息处理中心系统(China UnionPay System,缩写为CUPS)。中国银联信息处理中心系统,是我国为配合金卡工程的实施而建立的,是一个跨系统、跨地区、跨国界的庞大金融网络系统。总体设计目标是要建立起一个现代化的、实用的、比较完整的电子货币系统。CUPS是1993年提出任务而组织实施的、以电子货币应用为重点启动的各类卡基应用系统工程,当时的技术规范是采用的CUPS V1. 0标准规范。入网机构必须遵照CUPS V2. 0规范对网络通信接口方面的要求,建设与银联新系统网络的接口,保障各入网机构和银联新系统网络之间互联互通,并提供银联银行卡信息安全、稳定、可靠的存取控制。由于网络方面的高风险性,网络安全问题日益引起人们的重视。

3.2 利用人脸识别技术防范网络风险

对于我国广泛使用的磁条银行卡,虽然技术成熟,规范,但制作技术并不复杂,银行磁条卡磁道标准已经是公开的秘密,仅凭一台电脑和一台磁条读写器就可以顺利“克隆”银行卡。另外制卡机销售管理不够严格。不法分子利用银行卡诈骗案件时有发生,主要手段就是通过各种方式“克隆”或者盗用银行卡。目前,各家商业银行也采取了一些技术手段防止伪造和克隆卡,如采用CVV (Check Value Verify)技术,在生成卡磁条信息的同时产生一组校验值,该校验值与每个卡片本身的特性相关联,从而达到复制无效的功能。虽然采取了多种措施,但磁条卡本身固有的缺陷己严重威胁到客户的利益。针对上述银行网络安全问题,我们可以利用人脸识别技术防范网络风险。人脸识别技术就是通过图像采集设备捕捉人的脸部区域,然后把捕捉到的人脸和数据库中的人脸进行匹配,从而完成身份识别的任务。利用人脸识别技术准确认定持卡人的真实身份,确保持卡人的资金安全。另外,还可以通过人脸识别技术进一步锁定不法分子,有利于公安机关快速破案。

3.3 人脸识别技术在治理假钞方面的应用

目前,我国商业银行在自助设备方面存在的主要问题:一是部分自助设备安装没有达到要求。商业银行的部分自助设备安装没有按照公安部门的要求对设备进行与地面加固连接;有的电气环境没有达到要求:有的没有设置110连动报警或者没有可视监控报警,有的监控录象不够清晰,监控录象保存时间没有达到规定要求等,另外设备人为破坏现象严重等。二是自助设备端软件设计缺陷。特别是某些国产设备软件设计不够合理,软件变更随意性大,存在漏洞,造成错帐可能性比较大。三是银行的ATM机中没有假钞鉴别设备。由于我国商业银行在自助设备方面存在的问题,目前,假钞层出不穷。由于银行的ATM机中没有假钞鉴别设备,只是清机人员放入现金前做了鉴别,这样措施并不够完善,且容易造成银行与持卡人之间的纠纷。即使是现金存款机(CRS)有假钞鉴别功能,但往往因为假钞识别特征提取的滞后,而被不法分子所利用。不法分子先存入假钞,然后马上在柜台或其他自助设备上提取真钞,以此手段谋取不法利益。

针对上述问题我们利用人脸识别技术锁定不法分子。人脸识别具有自然性和不被察觉性的双重优点。自然性是指该识别方式同人类(甚至其他生物)进行个体识别时所利用的生物特征相同。具体而言,人脸识别是通过观察比较人脸来区分和确认身份的。与语音识别、虹膜识别等相比较,指纹识别、虹膜识别则不具有自然性。指纹识别或者虹膜识别,需要利用电子压力传感器采集指纹,或者利用红外线采集虹膜图像,这些特殊的采集方式很容易被人察觉,从而更有可能被伪装或欺骗。不被察觉的特点对于一种识别方法也很重要,这会使该识别方法不令人反感,并且因为不容易引起人的注意而不容易被欺骗。人脸识别便具有这方面的特点,它完全利用可见光获取人脸图像信息。由此可见,利用人脸识别技术能更准确、更快的锁定不法分子。随着人脸识别技术的不断创新,人脸识别技术的应用领域将会更加广泛。

参考文献:

[1]王伟,张佑生,方芳.人脸检测与识别技术综述[J].合肥工业大学学报(自然科学版)第二十九卷第二期,2006,6.

[2]奕勇.银联网络中的安全技术研究及实现,2007.