文档名称：

大数据下的“多语种唇语识别系统”构建.doc

格式：doc 大小：15KB 页数：5页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

大数据下的“多语种唇语识别系统”构建.doc

上传人:刘禅 2022/8/7 文件大小：15 KB

下载得到文件列表

大数据下的“多语种唇语识别系统”构建.doc

相关文档

文档介绍

文档介绍：大数据下的“多语种唇语识别系统”构建
摘要:社会上有这样一个特殊的群体,有人称之为“聋哑部落”,这就意味着他们完全被孤立在健全人控制的社会以外,他们的手语很少有人懂,他们的心理与健全人心理相比存在差异。本项目为特殊学校的聋哑大数据下的“多语种唇语识别系统”构建
摘要:社会上有这样一个特殊的群体,有人称之为“聋哑部落”,这就意味着他们完全被孤立在健全人控制的社会以外,他们的手语很少有人懂,他们的心理与健全人心理相比存在差异。本项目为特殊学校的聋哑人群提供专门的唇语产品,掌握唇语使用技能,以便他们和正常人一样进行交流。本项目还提供即时文字输出系统、多语种系统等高端消费,为“耳障”人员提供帮助。项目在技术上具有前瞻性、可行性,从经济上,由于国家对特殊教育持积极的鼓励政策,获得政府多方面的支持,可操作性强。
关键词:大数据唇语识别耳障
中图分类号:TP301 文献标识码:A 文章编号:1003-9082(2019)08-0-01
一、引言及背景
第四届世界互联网大会让人工智能再一次掀起了新的浪潮。近来人工智能的发展,从一开始的使用键盘码字,到后来的智能触摸屏的发明、再到语音输入等人机交互的发展,这些发展促使人机交互的模式向更加多元化的方向更新。如今,出现了一种新兴的人机交互技术——唇语识别。唇语识别是指通过观察口形变化,识别和部分识别出说话者内容,达到理解说话者的意图。
近几十年来,计算机技术得到飞速发展,但是人机交换界面依然很老套,人们仍然要在键盘上敲敲打打,依赖鼠标的帮助,通过最普通的界面进行计算机操作。这种连续敲打键盘不仅容易造成手腕肌腱损伤,还把使用者一直束缚在键盘上。或许自动语音识别系统能让我们稍稍感到轻松一些——这种系统在办公室内的多媒体系统,从而实现无声通话。
该技术还可以被广泛应用于语音识别、身份识别、人机智能接口,以此来实现无声对话、特殊教育教学、老年人、残障人辅助以及其它场合的应用,例如公安、刑侦辅助侦破等等。通过唇语识别,可以让无法开口说话的残障人士自由表达、让听力障碍者和不少老年人更清晰地听懂他人;通过口型支付密码,可以进行移动支付;而在军事情报领域,唇语识别则让远距离获取情报成为可能。
二、特征提取与模式的概化引用
可视语音信息的特征提取方法可分为两大类:基于像素的方法和基于模型的方法.。
所谓基于像素的方法,就是直接利用包含嘴的灰度级图像或直接利用经过若干预处理后得到的特征向量(feature vector);其缺点是分类器的学****过程中对一般的二维或三维的平移、旋转、放缩,或光照变化或说话人的变化都很敏感;另一个缺点是,其特征向量是高维度的和高冗余度的。
所谓基于模型的方法,就是对可见的发音部位——主要是唇的轮廓建立一个模型,而外形的描述用一个小的参数集合。这类方法的优点是重要特征被表示成低维量且通常不因平移、旋转、。
三、多语种管理系统
如今的唇语识别系统还不完善,比如研究领域仅仅局限于母语以及最普遍的英文。但是,对于那些擅长说方言的人而言,仅仅这两种语言是无法满足其需要的。所以,可以创建