原创 一个听不见的人,也想要看懂每一个新闻 搜狗发布全球首个手语AI合成主播
2022-03-19 16:17 来源: 如是欢乐
原标题:一个听不见的人,也想要看懂每一个新闻 搜狗发布全球首个手语AI合成主播
新智元报道
在《圣经》中描述过这样一个故事:最早的人们语言相通,准备齐心协力修建一座能够通往天堂的高塔。
此举惊动了上帝,他惊诧并顾忌人类具有如此的超能力,于是想办法阻止人类,于是他悄悄来到人间,改变并区别人类的语言,令他们分散在各处,由于无法相互交流,修建高塔的浩大工程也因此半途而废。
随着全球教育程度的不断提升,加之各种人工智能技术的协助,如今操持着各种语言,散落在世界各地的人们之间自由的交流沟通早已不是障碍。
但是在世界上仍然有这样一群人,似乎被遗忘在巴别塔的角落:他们看起来与常人无异,但是在他们的世界里则是一片宁静:没有世界的喧嚣,同时也切断了与其他人正常沟通的渠道。
这还不包括许多在听力上有缺损的人,比如闪耀NBA(美职篮)的中国巨星姚明:他的左耳几乎处于完全失聪的状态。
假如周围环境突然变成一个没有任何字幕的默片,对于任何人而言都不好接受,甚至选择进入与世隔离的「自闭」状态。
可以想见,这个群体与社会和平相处已属不易,更不用说融入这个嘈杂的世界了。
由于听觉受损,所以他们对于外界的视觉信息变得格外敏感,继而创造出他们自己独特的一套语言:手语。
结合手部动作、面部表情,甚至是口型的变化,听障人士打造了一套有别于其他任何一种语言的,完全依靠视觉传达信息的语言系统。它支持残障人士在日常生活中表达自己的想法,以及接收外部信息。
但是这一套独特的语言体系相当于将这一特殊的群体局限在自己的圈子里:他们相互之间可以交流沟通,但是与健听人之间在无形中就被自然分隔在了巴别塔下。
帮助TA们重建「巴别塔」
搜狗AI交互技术部总经理陈伟
这项技术主要涉及到以下三个主要的技术点:
比如语序问题,「开车不许喝酒」在手语中则是要先后表现出「开车」、「喝酒」、「不准」三个手势;
手语也无法展现程度之类的虚词、副词等,比如「大雪」,只能通过更大的身体幅度来体现「大」的含义;
手语需要手势、表情以及口型结合才能将意思表述完整
第三,驱动「数字人」,将翻译好的信息转化为准确连贯的手部动作、面部表情以及口型。
举个简单的例子,在手语体系中每个词汇都有对应的手势,但是前后不同手势的变换,如何能够如真人一样流畅连贯,对于技术团队而言就是一项不小的挑战。
当数字人无限接近于真人,wzfbcex.com,我们该兴奋还是恐惧?
不久前,由Epic Games旗下公司UnrealEngine开发的一个工具可以让我们随心所欲创造和定制逼真的数字人。
搜狗团队在去年做3D数字人的时候,就遇到了难题。数字人在张嘴说话时都看不到声带振动。
进一步放大拉近看的话,小聪脸上还会有一些坑坑洼洼的地方,还有一些纹理,51fszq.cn,这是真人材质必须要具备的能力。
因为即便外观看似像一个人,但是无法和人类自然交流,依然会让人害怕。这需要大量数据的「投喂」,来训练更好的模型。
上一篇:杭州搜狐网【官网报道】
热门资讯
HOT NEWS
热门推荐
头条专题