纳杰知识产权公司logo
纳杰知识产权

国家知识产权正规备案单位

专利申请专利申请 商标注册商标注册 高新认定高新认定 知识产权贯标IP贯标

纳杰24小时咨询热线

纳杰官方微信公众号

官方微信
专利咨询

您的位置:主页 > 专利咨询 >

听障人士的福音:阿里联手美国学院推出AI唇语解读新方法

发布时间:2019-12-12

自从马云从阿里巴巴退休后,很多人都说没有马云的阿里巴巴可能发展势头没有以前那样猛了,尽管他们拥有近乎完美的“传承计划”执行者。

这就好比失去乔布斯的苹果一样,虽然库克接手后,苹果业绩一路上升,甚至成为全球第一家市值破万亿的科技公司。但对广大苹果用户来说,没有乔布斯的苹果已经失去了引人品尝的魅力,此后只是成为了一种能赚钱的货物而已。

可似乎人们都忘记了,创始人也会有力不从心的那一天,如果想让企业能在新时代的竞争中力争上游,势必要靠更有活力的年轻人开辟出一条新路来。

毕竟这个世界不管少了谁地球都照样转,同样,阿里巴巴没有马云指点江山也能照样运营得很好。

阿里巴巴

因为阿里巴巴在很早时候就创建了合伙人机制,以此来解决规模公司的创新力问题、领导人传承问题、未来担当力问题和文化传承问题,以制度和人、文化的完美结合,让公司得以健康持续发展。

而且按照阿里巴巴内部流传的说法,马云指定的接班人张勇是“在高速路上换引擎的人,而且把拖拉机换成了波音747”。

可能很多消费者不知道,张勇在很多方面上改变了阿里巴巴。他先是重新设计了淘宝的商业模式,随后又举全集团之力使手机淘宝成为世界上最大的移动电商平台。

从移动互联到万物互联、从商业公司到科技公司、从平台到经济体,可以说是张勇奠定了阿里巴巴从PC端向移动互联变迁的最重要基础。

如今阿里巴巴正迈入智能时代,张勇也正带领阿里巴巴集团一起进行更多、更深层面的变革,并系统性布局人工智能领域,抢占万亿级市场蓝海。

当然,即使张勇再牛,也不可能事事都亲力亲为。阿里巴巴有那么多部门,旗下又有如此之多的得力干将,会投资、合作的更不在少数,每个人擅长的领域或许不一样,但只要方向一致就能把一件事给做好。

比如2017年阿里巴巴和浙江大学签署战略合作协议后成立的“阿里巴巴-浙江大学前沿技术联合研究中心”(简称AZFT)。该研究中心向全球招募研究人员,计划攻克面向未来20年的核心科技,同时又在人工智能、泛在信息安全、无障碍感知互联等前沿技术领域开展研究合作。

阿里巴巴-浙江大学前沿技术联合研究中心

说起来,AZFT在最近有个比较公益性的研究,倒是让不少特殊人群极为关注。

有多特殊呢?我们接着往下看。

上周12月5日有媒体报道,AZFT和美国斯蒂文斯理工学院(Stevens Institute of Technology)的研究人员推出了一种提升人工智能阅读唇语准确率的方法——“Lip by Speech(LIBS)”,以帮助那些听力不好的人观看没有字幕的视频。

据悉,该方法利用视频中的语音信息作为辅助线索,减少了人工智能对视频中无关帧的关注,使其注意力更加集中。研究人员表示,使用该方法的人工智能在两个唇语阅读基准测试中,字符错误率分别降低了7.66%和2.75%。

教听障孩子看唇语

当前,视频已经成为网民获取信息的重要媒介,然而对于听障人士来说,获取多媒体内容的语音信息时却存在着极大的困难。可以说,LIBS为视频提供相应的字幕将极大方便听障人士获取语音信息对应的内容。

那么这种研究是否符合听障人的期待呢?蜗牛纳拜托一个朋友在她们听障群里进行简单的采访。

听障群聊天内容

这几位听障朋友认为此类研究是很有必要的,可以帮助他们在有嗓音的环境下正确理解对方要表达的意思。

实际上,能够从视频中读唇语的AI和机器学习算法并不是阿里巴巴他们最早研发出来的。

2016年,谷歌和牛津大学的研究人员曾介绍过一种系统,该系统可以以46.8%的精度注释视频素材,优于专业读唇语人员12.4%的精度。

但是,即使是最先进的系统也难以解决唇部运动的“一语多义”问题,因而导致唇语识别的准确率一直无法超越语音识别。

后来在2017年,搜狗推出了全新的人机交互新技术——唇语识别,是业内首个公开演示的唇语识别系统,能够通过机器视觉识别,不用听声音,仅靠识别说话人唇部动作,就能解读说话者所说的内容。

搜狗唇语识别技术

按照搜狗方面提供的数据显示,在非特定人开放口语测试集上,搜狗唇语识别系统已经达到60%以上的准确率,超过google发布的英文唇语系统50%以上的准确率,在垂直场景如车载、智能家居等场景下甚至已经达到90%的准确率。

而在业内大多数唇语识别技术实用性尚待考证的环境下,搜狗成功完成了业内首个中文唇语识别系统的公开演示。

搜狗唇语识别技术

如上图所示,搜狗的唇语识别技术还能发挥巨大的公益价值,可以帮助先天性听障人群或老年人,让他们更好地理解和表达自己。

搜狗有无在唇语识别方面申请专利呢?自然是有的。

“一种唇部状态检测方法及装置”专利就是搜狗申请的。

一种唇部状态检测方法及装置

该方法包括:对目标图像进行唇部区域检测,获取所述目标图像包括的唇部区域图像;确定所述唇部区域图像的多个关键特征点;根据所述多个关键特征点对应的特征值确定所述唇部区域的状态;所述唇部区域的状态包括开口状态或者闭口状态。本发明实施例可以有效检测唇部区域状态,识别准确性高,成本低,并能有效去除静音帧等噪声数据对唇语识别结果的影响,减少干扰,提高数据处理效率。

不过现在还是有越来越多的智能音响喜欢应用到语音识别,目前智能设备的语音交互方式基本上使用的是基于语音唤醒词的语音交互。

就拿最近中国科学院权威测评报告中,在自然语言理解上的技术能力具有显著优势、也最能听懂用户的小度智能音箱来说吧。相信很多家庭都很喜欢这种智能音箱,只要说出命令词语就可以让小度帮你做一些事情。

然而,对于不喜欢频频冲着音响重复命令词语的用户,以及口不能言或发音不标准的听障人来说,小度实在是个不太人性化的智能设备。

但这一问题已于2018年得到了解决,百度申请了一项名为“基于唇语的语音唤醒方法、装置及计算机可读介质”的发明专利。

基于唇语的语音唤醒方法、装置及计算机可读介质

该专利包括以下步骤:采集用户的嘴唇变化图像;判断用户的嘴唇变化图像是否与预设变化图像相匹配;当用户的嘴唇变化图像与预设变化图像相匹配时,唤醒语音交互功能。

也就是说,用户可以在不需要说出明确唤醒词的情况下唤起智能语音交互设备。这让语音唤醒更加智能,也更方便用户与语音设备的交互。

除了阿里巴巴、搜狗、百度等公司在发明语音+唇语方面的人工智能技术以外,不少公司也纷纷投入相关领域的研究中,企图为听力不太好的群体做些什么。

例如“带有唇语识别功能的手机”,该实用新型专利可通过手机的前置摄像头模块是数据采集模块,通过摄像头来采集面部肌肉特征,和口型特征,然后转换成数据和数据库中采集的数据进行比较得到唇语的内容,大大方便了失去说话能力的用户。

带有唇语识别功能的手机

还有涉及了视听转换设备技术领域的“一种便携式唇语识别器”。在其工作时,摄像头捕捉嘴唇发音动作,并将信号输入唇语识别芯片,唇语识别芯片识别出发音内容,分别转换成声音信号通过喇叭发出声音,或者转换成文字信号通过显示屏显示,从而使使用者获取相关信息,使他们的交流顺利进行。

一种便携式唇语识别器

“一种唇语识别方法、装置、系统和智能眼镜”。该技术方案可以解决听力辨别力差人员的沟通问题;可以解决远距离沟通问题,例如在国外有部分海事人员有专业训练唇语来判断别的船或是岸上的人所说的话;可以用于高空作业、军事等,方便信息的及时传递和反馈。

一种唇语识别方法、装置、系统和智能眼镜

诸如此类的还有很多,都能够帮助听障人毫无压力地了解别人表达的内容。

这样的发明越多越好,毕竟将来不光是听障人,就连成年后因各种意外或年老导致听力情况不太好的群体,也会非常需要此类技术。

据世卫组织的统计数据,目前全球残疾性听力损失患者人数约4.66亿,约占全球人口的5%以上。据估计,到2050年,全球将有超过9亿人存在残疾性听力损失。

尽管目前我国的AI唇语识别准确率还有待进一步的提升,但蜗牛纳相信国内外科技企业必定会在该领域有更多新的突破。

毕竟此次阿里巴巴与国外高校合作推出的LIBS方法,已经为视频语音相结合的领域提供了一种新的研究思路,未来能够让听障人士在嘈杂环境下借助语音+唇语识别的辅助进行无障碍交流。

——END——

纳杰微信公众号

编辑:蜗牛纳@北京纳杰专利申请代理机构

本文地址:http://www.bjnajie.com/a/zlsb/5593.html

相关阅读:

国家高新企业认定条件

实用新型专利申请流程

专利申请的基本流程

PCT国际专利申请

申请专利的费用

贯标认证流程

上一篇:如何让发明专利加快授权?发明专利加快授权的途径
下一篇:消防员为“除戒神器”申请专利,网友评其含金量太低!
Copyright 2020-2022 北京纳杰知识产权版权所有 北京市东城区崇文门外大街3号新世界中心写字楼B座718室