(资料图)
“据我们所知,EchoSpeech 是第一个使用眼镜框来进行无声语音识别的工作。论文发表之后我们收到了很多邮件。在发信人中,有即将被移除声带的癌症患者、有语音障碍的孩子、也有来自医生的。这些反馈激励着我们更加努力地将本次成果带出实验室,做出真正能够改变人类生活的产品。”清华大学校友、目前正在美国康奈尔大学读博的张瑞东表示。 图 | 图中张瑞东佩戴的眼镜就是 EchoSpeech 设备(来源:Photo Courtesy of Dave Burbank) EchoSpeech 是一款新型可穿戴无声语音识别系统 , 它可以连续识别 31 条无声语音指令,准确率达到 95%,最高电池续航时间约 10 小时。其中,传感器成本不超过 100 元,单片机处理器成本 300 元左右。 (来源:ACM) 无声语音指的是只动嘴、而声带不发声的说话方式,有些类似于耳语(不严格区分的话,耳语也可以算作无声语音)。 不过,耳语本身必须发出一些声音,而无声语音则无需发出任何声音。正在阅读这篇文章的你可以尝试一下耳语,但是不要送出气流,这样几乎不会发出任何声音,而嘴唇和舌头依然会动。 对于公众来说,无声语音可能仍然是一个新鲜事物。但是,大家在日常中或多或少都会接触到。比如,开会时和别人交流时的耳语。 相比有声语音来说,无声语音最大的优势就是“无声”。在一些安静的场合,比如图书馆、会议中等,出声地说话是不合适的;另外,在特别嘈杂的环境中,语音交流也会容易受到噪声的影响。在这种情况之下,都可以使用耳语。 而对于声带损伤者或残疾人士来说,无声语音可能是最接近语音交流的唯一选择。在这个意义上,关于无声语音的相关应用具备很大的潜力。(来源:ACM) 对于无声语音识别这项技术,已经有很多课题组在研究。最成熟、最流行的是依靠计算机视觉的方案:即使用相机直接捕捉面部运动尤其是嘴唇的运动。 这种方法的缺点十分明显:它必须在用户面前放置相机,而这就涉及到普适性、功耗、隐私等问题。 也正因此,目前面向可穿戴领域的解决方案多数还不成熟,在穿戴舒适度、功耗、系统等方面依旧欠佳。 例如,在多支团队的研究成果中,都需要在口腔内放置传感器来追踪舌头运动。绝大多数方案只能识别说得比较清晰、语速较慢的离散指令,例如能识别单独说出来的、中间有暂停的 1-2-3,但是无法识别连续说出来的 123。 而张瑞东所在团队研发的 EchoSpeech,在穿戴舒适度和连续识别上有着明显优势。 在 EchoSpeech 的设计中,传感器即小扬声器的麦克风,被安装在眼镜框的下边缘。这时,通过采用声波感知技术,就能探测面部运动尤其嘴唇的运动,并以此来识别无声语音。 与同类成果相比, EchoSpeech 具有体积小、佩戴舒适、功耗低、隐私保护好等优势。同时,在识别连续词组/句子的能力上,EchoSpeech 也有着很大提升。 (来源:ACM) 长期来看,无声语音识别技术很有潜力作为普通语音识别的替代和补充。有研究显示,隐私和社交尴尬是用户不愿使用语音识别的重要因素 [1,2]。而无声语音恰好解决这两个问题,原因在于它可以扩展语音输入整体的应用。 另一方面,无声语音还能把语音识别技术扩展到更多场景中,例如有望让用户在工作环境下使用无声语音控制设备,同时也能让用户使用无声语音来与 AI 使用自然语言交流,这样一来既能大大提高工作效率,也不会打扰到周围人。 不过短期来看,由于词汇量、识别准确率等方面的限制,要想实现大规模的应用可能还不成熟。目前,最有希望将EchoSpeech用于控制音乐播放和社交软件等。 (来源:ACM) 张瑞东表示:“一直以来,我们实验室都专注于可穿戴交互设备的研究。我的上一个项目 SpeeChin,也是一个无声语音识别的工作。不同之处在于,SpeeChin 采用挂在项链上的红外相机来捕捉下巴运动,进而去推断无声语音。” 相比之前的工作,SpeeChin 在识别准确率和设备舒适性上有着极大提高。但是,作为一种采用相机的方案,其依然存在功耗高、侵犯隐私等问题。 正因为这些原因,该团队一直在开发应用范围更广泛的感知技术,比如声波感知技术等。 张瑞东表示:“为此我参与了一个名为 EarIO 的项目,期间我们利用耳机上的扬声器和麦克风,借助声波感知技术通过捕捉耳后皮肤的微小震动来重建面部表情。在 EarIO 获得成功时,我们立刻意识到了这项技术在其他方面的巨大潜力。于是开启了本次 EchoSpeech 的项目。” 立项之后,有两个难题摆在张瑞东面前:一是寻找最合适的设备形态,包括设备本身的形态,以及传感器的位置、角度和数量;二是提高系统性能,尤其是识别连续短语和句子的能力。 在寻找设备形态上,他们尝试了很多方案,比如耳机+外延的结构、以及环绕头部固定器+外延结构等。但是,这类结构的主要问题在于,在多次佩戴之后稳定性欠佳。 他们也尝试过入耳式耳机、头戴式耳机等结构,不过由于距离主要“发音器”(即说话时活动的部分例如嘴唇、舌头)比较远,故在同等条件之下识别准确率不甚理想,同时所需要的数据也更多。 后来,张瑞东的导师想到了眼镜。“导师强烈建议我试一试眼镜框,我之前对眼镜框不是很有信心,因为它离主要的‘发声器’太远了。而且由于位置和角度的原因,并没有合适的直线传播路径。但是,在尝试中我意识到对于信号来说,其实并不需要直线传播。”张瑞东说。 眼镜的好处之一在于稳定性高,一般情况下眼镜会被贴合地佩戴在头上,在多次佩戴之后依然具备较好的稳定性。并且,眼镜和主要“发声器”之间的相对距离比较稳定。 直到这时,装置的最终形态终于被确定下来:即在眼镜框下缘布置传感器,其中一侧放置扬声器,另一侧放置麦克风。 在提高系统性能上,他们并未使用先切割出来说话部分、再进行识别的方法,而是使用端到端的方法,一次性地完成切割任务和识别任务。 这样一来,当佩戴者不说话的时候,系统就会输出空标签。至此,前面提到的两个难题均被攻克,关于 EchoSpeech 的课题也正式宣告结束。 日前,相关论文以《EchoSpeech:由声学传感驱动的最小干扰眼镜上的连续无声语音识别》()为题发在 2023 ACM 人机交互国际会议上,该会议也被认为是人机交互领域最负盛名的会议。张瑞东是论文第一作者,康奈尔大学教授担任通讯作者 [3]。 图 | 相关论文(来源:ACM) 基于本次成果,张瑞东也将开展语音合成、以及扩展词汇量。 假如可以实现语音合成,那么就能用于发音障碍人群身上,从而给他们提供一个真正的语音交互接口。 而之所以打算拓展词汇量,是因为如果想把无声语音识别真正做成一个有用的产品,就必须能够识别更多的单词。 长期来看,该团队希望无声语音识别技术的表现,能够和普通语音识别相媲美,只有这样才能讨论更加长远的应用。 另据悉,张瑞东所在的团队专注于研究智能传感器件,此前他们还曾造出可以检测表情的耳机等创新设备。目前,该团队已有超过 20 项正在申请的美国专利和国际专利。 参考资料: 1.Christine Rzepka. 2019. Examining the use of voice assistants: A value-focused thinking approach. (2019). 2.Philip Weber and Thomas Ludwig. 2020. (Non-)Interacting with Conversational Agents: Perceptions and Motivations of Using Chatbots and Voice Assistants. In Proceedings of Mensch Und Computer 2020 (Magdeburg, Germany) (MuC ’20). Association for Computing Machinery, New York, NY, USA, 321–331. https: //doi.org/10.1145/3404983.3405513 3.Zhang, R., Li, K., Hao, Y., Wang, Y., Lai, Z., Guimbretière, F., & Zhang, C. (2023, April). EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing. InProceedings of the 2023 CHI Conference on Human Factors in Computing Systems(pp. 1-18). 运营/排版:罗以 由 DeepTech 携手《麻省理工科技评论》重磅推出的《科技之巅:全球突破性技术创新与未来趋势(20 周年珍藏版)》已开售!点击下方海报可购买图书!!
推荐内容
-
康奈尔博士生AI声呐眼镜,成本低廉
-
热头条丨灌木类植物对耕作层影响_灌木类植物
-
世界观天下!永鼎股份:公司全资孙公司获得国内某主流汽车公司某款新能源车型整车线束业务定点通知书
-
深南电路:公司部分PCB产品应用于AI服务器领域,目前此类产品占比较低_当前简讯
-
联化科技:对全资子公司增资5亿元
-
【全球速看料】两部门联合印发实施中小企业计量伙伴计划的通知
-
香港楼价指数连升4个月 创7个月新高|环球热点评
-
本田计划到2030年将软件员工人数增至一万人
-
6.11日东岸音乐学院将“古典与现代对话”音乐会邀请函,请领取! --> 今日热搜
-
5月26日伦敦LME锌锭库存行情
-
当前焦点!清丰县公安局阳邵派出所多项措施开展夏季治安严打严防专项行动
-
qq空间背景(qq空间北京)
-
“钱学森数字人”现身中关村论坛 聊中国味“元宇宙”
-
热点聚焦:强化内畅外联 珠海金湾8条市政道路完成改造
-
天天报道:国家发改委出台专项方案实施巩固易地搬迁脱贫成果行动
-
莎普爱思:左氧氟沙星氯化钠注射液《药品注册证书》
-
*ST未来:5月30日起进入退市整理期交易-环球热点评
-
机构:2023年Q1全球智能手表同比下降1.5%
-
上海解除高温黄色预警信号 速看料
-
对公数字化渐入深水区 渤海银行企业网银3.0全新升级
-
哈利法本哈马德阿勒萨尼(阿本塞拉赫人和美女哈里法的故事) 速读
-
援外日记|“等待我们的并不是终点,而是整装再出发!” 全球聚看点
-
能动服务 精准执行 南召法院助力优化法治营商环境
-
康菲中国携手中外伙伴在天津成功举办先心病系列公益项目启动十五周年庆系列活动_全球今热点
-
从大学老师到飞天战士 朱杨柱:中国梦给我们带来了航天梦
-
世界看热讯:阿莱德投资新设金属科技公司,含电子元器件制造业务
-
当前视讯!欧股主要股指集体高开
-
看点:雅化集团:卡玛蒂维矿山一期将于今年9月投产
-
正海生物:公司活性生物骨产品正在做相关转产验证工作,预计年内完成,明年正式上市销售|环球新视野
-
干旱致西班牙“美食国宝”伊比利亚火腿减产
-
贵州三力:公司GMP二期项目预计今年七八月试运行,十月下旬正式投产
-
环球关注:货币政策有力支持经济发展恢复向好(财经故事)
-
评论丨议论“校园碾压案”家长妆容,这是无聊更是残忍
-
孕妇能不能吃阿胶糕_经期能吃阿胶糕吗 天天通讯
-
互动| 比亚迪:愿意免费分享PHEV核心技术 接受行业专家分析与研讨
-
苏州二批供地:中建三局拔得头筹 15.62亿元拿下太湖新城地块
-
四川木里发生森林火灾 两处火势较强,近千人投入扑救
-
天天滚动:四川外国语大学面向本校2023届毕业生招聘科研行政助理20名通知
-
热门看点:房地产开发板块走低,天房发展触及跌停
-
祥祺集团承认出现阶段性现金问题,正出售部分资产的部分股权
-
德迈仕:公司电枢轴等多个量产产品已应用于特斯拉汽车中
-
环球简讯:电池级、工业级碳酸锂连续第六日持平
-
天天时讯:十八部门:探索利用人工智能、虚拟现实等技术手段改进和强化实验教学
-
1158万人!今年高校毕业生数量再创历史新高!找工作更难了...
-
今日热文:朝鲜外务省:日本应以实际行动表现解决问题的意志
-
初级会计查分全国会计资格评价网
-
窄幅波动
-
法网公开赛一幕:乌克兰选手拒绝与白俄罗斯对手握手,观众发出嘘声_全球速看料
-
稀土超分子感光变色镜片试制成功
-
中经评论:专项债券不能“一拨了之”
-
2023年5月28日山东省氨基磺酸价格最新行情预测
-
【天天新视野】Faker倒霉历史公开,ShowMaker爆料:最近两年,T1都在重蹈覆辙
-
云从科技回应股价大跌:就解禁一事曾与股东沟通 如何操作是股东自己选择
-
云海金属:预计到2025年 公司镁合金产能将达50万吨
-
环球快资讯:特一药业:止咳宝片毛利率一直维持在80%以上
-
世界聚焦:5月29日午间公告一览:距离“上能转债”停止转股仅剩最后半个交易日
-
三部门联合发布依法严惩危险废物污染环境犯罪典型案例
-
资讯:首届CWIC2023中国西部半导体及集成电路产业博览会在西安国际会展中心开幕
-
海峡两岸(平潭)铁人三项公开赛举行
-
全球快资讯丨融合创新,激发文旅消费潜能(人民时评)
-
Pedro Miguel Santos与葡萄牙的TS House一起模仿古典寺庙-环球新要闻
-
4岁男童模仿动画片情节 撑伞从26楼跳下,该谁担责?_世界观热点
-
擦亮“灵宝叉车工”亮丽名片 助力农村劳动力高质量就业
-
失信人员刷身份证会显示吗?失信人员上班能查出来吗?
-
卓创资讯:成品油零售限价或遇上调
-
创业板指跌1%_世界热闻
-
沪指翻绿
-
绿地能源计划在上海、北部湾等沿海地区搭建煤炭进口平台和渠道
-
AI大牛股云从科技触及20cm跌停
-
全球快报:济阳农商银行仁风支行持续开展“感恩母亲·真情回馈”活动
-
赤“橙”之心,不负芳华——山东平安产险庆祝平安35周年-今日视点
-
情系母亲 情谊无限济阳农商银行开发区支行开展母亲节主题活动
-
[人民日报]让税收大数据成为“好帮手”
-
江西省税务系统举办主题教育读书班_全球焦点
-
“一厅集成”高效服务苗乡侗寨
-
要闻速递:电力ETF指数基金(560580)涨2.09%, 华电国际涨5.10%,大唐发电涨3.13%
-
我国首例汽车企业全业务场景数据出境安全评估获批
-
当前视讯!beats solo3怎么连接电脑_solo3怎么连接电脑
-
新一波减持公告来袭 最高拟减持1.8亿股(附名单)
-
广州推出1879套共有产权住房 6月5日起网上申购
-
磁力指轮(关于磁力指轮介绍)
-
创业板指单边下挫逾0.6% 再创逾1年新低_全球微资讯
-
金科股份澄清:公司目前生产经营正常,与相关合作方未签署任何协议,相关事项仍存在不确定性|全球最资讯
-
七部门:推进农资追溯管理 健全完善种子、农药等农资质量追溯
-
中文在线:与鄂尔多斯市就数字文化、智慧教育、智慧文旅合作的具体思路做了深入讨论_热推荐
-
中国农业银行:将对个人长期不动存折账户开展排查清理工作|今日热门
-
世界快资讯:赵树理家乡的“调解室”
-
减产分歧叠加现货价格走高 苹果期价强势反弹 世界看热讯
-
银行主推银保产品 增额终身寿险抢占“C位”
-
大熊猫“丫丫”平安抵达北京动物园 现不对外展出-动态焦点
-
首只“不赚钱不收费”理财诞生 资管产品费率变革呼声高-当前信息
-
乌方称首都基辅遭到无人机空袭
-
cad命令栏不自动滚动怎么回事 cad命令栏不自动滚动 前沿资讯
-
中信证券:Q1汽车行业内需承压,预计下半年行业将逐渐走出最差时刻
-
中信证券:消费短期关注估值回落至低位时的配置机会
-
核电核准及开工项目渐次增多 产业链订单重回历史高位 当前快报
-
两市融资余额减少27.8亿元
-
央行:将开展2023年第五期央行票据互换(CBS)操作
-
全球快报:精工筑梦,匠传东方——梦金园品牌生态体系落地,智链未来赋能市场
-
5G普及率折射数字经济活力