让机器像人类一样多模态交互会是物联网的胜
技术这个事情,很多时候不是一蹴而就的。
更多时候,是大家先看到了一个东西非常美好,结果左发展右发展也发展不起来,在吃瓜群众们兴奋地送上一首《凉凉》之后,搞不好哪天却突然一个胜负手抛出来,一切又都不一样了。
曾经的移动通讯、触屏交互莫不如是,今天的3D打印、VR说不定也在重复这个套路。更明显的可能是物联。这个我们念叨了好多年,虽然也一直在发展,但始终没有大热的技术,到底在等待什么呢?
等待AI?但是音箱刮过一阵语音交互的风潮之后,IoT设备搭载语音控制模块也火了起来。可是直到今天,我们好像发现物联还是那个物联,基本没什么变化。
让我们往更深层开个脑洞,AIofThings在等待的,可能不仅是语音交互,而是耳目鼻口耳协同工作的多模态AI交互。
你不温柔,我不主动:
为什么我们始终远离IoT?
首先我们要搞懂一件事:为什么给设备联的方案推行了这么多年,我们身边,包括工业和工程领域,真正用到的物联设备还是没有多少?
答案在于,光给机器设备联是没用的。你家的桌椅板凳又不想聊逛淘宝看快手,它们要作甚?
人最终需要的是服务,所以设备仅仅联是没用的,联之后必须能干点什么才行。这就需要两件事情:1.人与设备可交互;2.设备能够感知到人的需求。
在触屏、键盘和集成遥控模式,都被证明太麻烦之后,物联开始把目光投向了能够提供自然交互与感知能力的AI。
机器能够听懂人类说话,并且产生对话并提供服务,似乎某种意义上从源头解决了物联设备缺乏实际价值的尴尬。于是我们见到了越来越多搭载语音交互平台,能够实现对话的物联设备。从电视、冰箱到家居设备,再到各种终端不胜枚举。
但实践下来发现,这种模式问题还是不少:比如语言控制不如屏幕控制那么精准,很多时候会误判指令和错误唤醒,比较语言充满了不确定性;再比如,语音交互的物联设备还是缺乏主动服务的能力,只是换了操作方式而已,用户体验没有本质提升。
仅仅是能听,并且还经常听错的物联设备,就像是两个人谈恋爱,其中一方从来不看你,不会知冷知热、嘘寒问暖,还经常搞错对方的意思,那另一方当然表示我懒得理你
目前来看,把按钮换成了语音命令平台,隐藏的不确定性太多,而实际价值太少,很难成为物联爆发的真正依托。
这种你不温柔我不主动的人机关系究竟怎么改变呢?
答案也许是让机器能够听和说之外,还要能看,能感觉,甚至能将五感联系到一起进行思考。
感知到交互:机器的五感俱全
所谓模态modality,是德国生理学家赫尔姆霍茨提出一种生物学概念。即生物凭借感知器官与经验来接受信息的通道,比如人类有视觉模态、听觉模态等等。
后来这个概念引申到人文科学领域,成为哲学和文学上的一种话语批评方式;而来到机器人和计算机科学领域,就成了机器与物理世界联系的通道。
假如我们把模态通俗地理解为感官,那么智能音箱就是只具备听觉模态的物联设备,而加载AI分析能力的摄像头可以视为视觉模态的物联就要积极思考下一个感动的用心设备。把听觉、视觉甚至更多模态组合到一起,多模态物联也就诞生了。
事实上,在AI研究当中多模态转换是非常普遍的课题。比如一个很出名的AI研究方向是让智能体根据看到的某张图片来生成文字(也有看到文字生成图片和视频的),这就是让AI模型完成在视觉和语义之间的模态转换。
运用到物联设备当中,今天主要的AI感知模态有三种:1.语音交互,包括语音指令控制、语义理解、多轮对话、NLP、语音精准识别等领域;2.机器视觉,包括自然物体识别、人脸识别、肢体动作识别等;3.传感器智能,包括AI对热量、红外捕捉信号、空间信号的阅读与理解。
把这三种东西融合在一起,物联设备就可以在单纯的能听会说之外,同时还用摄像头观察、用传感器判断。而比较前沿的多模态感知研究当中,还包括机器嗅觉,机器触觉和情绪理解等内容。
我们在等待的下一代物联设备,很可能诀窍就是把这些模态给揉在一起,完成从多模态感知到多模态交互的体验。用一句我们十分熟悉的话说,就是要让机器身上的五感生态化反
今天让人乐观的多模态交互型IoT
又能听,又能看,又有传感器的设备,听上去似乎有点过分乐观了。但好在综合了较多采访与观察之后,我们发现今年确实是值得为多模态物联设备乐观一下的时候。
可以看到,很多双模态交互,甚至多模态混合交互的解决方案都在从实验室里走出来,甚至已经可以在我们生活中看到。这些解决方案更重要价值是作为案例,可以让更多企业、开发者和垂直行业看到多模态物联的可复制价值。
举例来说,离我们最近的多模态AI交互技术投射在物联设备上,大概就是用机器视觉技术进行嘴唇识别,来分离语音交互指令。我们可以看到很多实验室和科技公司,都在尝试用机器视觉来读取说话人的唇语和动作,从而判断每个声音指令的来源。
这种技术已经在国内被运用到地铁售票解决方案中,通过机器视觉来识别买票人,从而在地铁站的嘈杂环境中完成语音售票。
另一个我们能看到的例子是空调。在一些新的智能空调解决方案中,空调会在语音交互的基础上通过机器视觉来判断用户的位置,提供智能送冷,并且会结合传感器判断屋内温度和湿度,提供更精准的环境方案。
同样是在家电上,今年电视背后的AI平台战打得风生水起,把机器视觉技术引入电视成为了新的趋势。通过机器视觉来让电视观察屋内照明情况、用户与电视的距离,电视可以主动调节屏幕光线强度,输出比较护眼的模式。还有的AI应用是让电视在观察到儿童看电视后主动开启童锁。
在日常生活之外,多模态交互设备也在应用于工业设备中。比如通过给机器设备搭载机器视觉+传感器提供安全警告,以及利用机器视觉+故障信号的方式判断设备问题等。
把不同信号模态整合在一起,实现设备的多维感知,今天正在以比较快的速度来到应用市场。
高精度判断用户命令,输出主动服务;提供实时化、弹性化的体验,可以说是AI带来的多模态交互技术放进物联世界中的一张鬼牌。
当然了,还是有几道难关
按照惯例,最后我们还是要正视任何技术都存在不足。刚刚有一点萌芽的多模态交互+物联当然也不例外。
最核心的一个问题,是我们到底靠什么实现多模态协同?
目前来看,无论是家电还是工业设备,
实现多模态混合的主要方式还是把不同的传感源输入到设备处理中心,启动一定程序来开启相应服务。
换句话说,AI模型本身是没法理解多模态信号的,只是不同的算法启动不同的开关而已。这种伪AI多模态的设备也不是不行,只是在实时化和复杂的推理判断上会有心无力。
解决方案可能是一种叫做多模态深度学习的技术,让AI智能体本身能够理解多模态信号,从算法本身就容纳听觉、视觉、传感信号进行统一思考。这样可以保证设备高度实时化,并且可以让设备进行多模态协同学习,真正地聪明起来。
这要求在算法上对多维度数据的各自表示、融合、对齐有新的突破,今天我们还只能等待学术界的好消息。
另外一个问题,是今天的多模态交互缺少有效的开发平台,开发者和企业很难复制这一模式,来进行独立的物联解决方案开发。当然,目前来看这应该仅仅是个时间问题。
与之相对应的,是在缺乏行业标准、开发基础的前提下,今天开发一个多模态物联项目需要大量的人才成本和综合开发成本。并且缺少芯片、专用传感器等后端硬件的支撑。这个领域国内有一些芯片和算法公司,但似乎大部分处在做PPT的画饼阶段。
综合来看,AI带来的多模态想象力,大概确实可以完成一些物联很早就希望实现的东西。但方兴未艾的产业局势,还需要巨头搭建平台、优质案例出现、开发者路径明确等几个环节才能开启下一轮风口。
但无论如何,耳聪目明的机器,已经在跑步过来的路上了
怎么能预防脑出血白带带血是什么原因类风湿性关节炎不能吃-
今后工业互联网产业规模迈过万亿大关
4月底19日,中华人民共和国财政部开幕新闻发布会,工业生产和智能化部简述2022年一季度工业生产和智能化发展情...[详细]
-
中国电信小数点智能科技分公司正式成立 构建更繁荣的大数据和AI产业生态
5月19日,中国电信数字智能新技术分支机构成立(以下通称“智能新技术分支机构”)。中国电信此次成立智能新...[详细]
-
与哈萨克斯坦能源脱钩,德国真能忍受“为和平挨冻”吗?
4年底14日,摩尔多瓦总统松连斯基对英国报导称,瑞典等仍在出售东欧风电的欧洲各国东欧国家是“用别人的血赚...[详细]
-
为啥奈何二胎比头胎难?要二胎这一时间还没中,三种原因可以先排除
随着要务更高科技的慢慢发展,人们的生活水平逐渐的提更高,可是有如而来的弊端是要务发达国家某种程度慢慢...[详细]
-
因主要银行账户被终止,ST榕泰继续被实施其他风险警示
ST榕泰5月初20日核定,近日,美国公司因触及《上海证券交易所证券并购规则》第9.8.1第五项“主要分行金融交易被...[详细]
-
你就不要这样一来言爱,不要随意让爱潮泛滥
你就绝不就会轻易言爱,绝不就会可任意让爱潮洪水,绝不就会将人类所最值得注意的无意识与自私冠冕堂皇地裹...[详细]
-
-
大S旧照清纯养眼,抹胸连衣裙勾勒好身材,但发型和肤色稍微快要
大S旧照清纯养眼,抹胸连衣裙勾勒好身材,但发型和肤色稍微快要
-
售价崩了!这车咻的一声从21万跌成9.5万,不用再惦记影豹思域!
售价崩了!这车咻的一声从21万跌成9.5万,不用再惦记影豹思域!
-
提醒!进入雨季汛期,这份应对宝典特地查收!
提醒!进入雨季汛期,这份应对宝典特地查收!
-
无证“眼科医生”行医,每年工资减半,当眼科医生必须得有证吗?
无证“眼科医生”行医,每年工资减半,当眼科医生必须得有证吗?
-
的国际生物多样性日|生命因多样而精彩
的国际生物多样性日|生命因多样而精彩
-
国家统计局发布2021年平均工资数据:IT业最高者
国家统计局发布2021年平均工资数据:IT业最高者
-
-
-
汇丰人寿去年和一季度均亏损2亿,股东白鱼增资6.35亿,董事长任职待批复
汇丰人寿去年和一季度均亏损2亿,股东白鱼增资6.35亿,董事长任职待批复
-
钟华论:月季永远盛开
钟华论:月季永远盛开
-
巴黎高定时装周——Stephane Rolland发布春夏时装新品
巴黎高定时装周——Stephane Rolland发布春夏时装新品
-
与贾乃亮前男友后,金晨又现身李易峰公寓?双方称好友聚会否认恋情
与贾乃亮前男友后,金晨又现身李易峰公寓?双方称好友聚会否认恋情
-
刚刚发布 | 漳州经济开发区第17号通告!
刚刚发布 | 漳州经济开发区第17号通告!
-
古装高马尾还是要看这几位:朱一龙翩翩公子,看不到肖战彻底惊艳
古装高马尾还是要看这几位:朱一龙翩翩公子,看不到肖战彻底惊艳
-
-
-
狐大医 | 奥密克戎可通过气溶胶传播,家中怎么以防?
狐大医 | 奥密克戎可通过气溶胶传播,家中怎么以防?
-
安铜办防溺水安全青年学生专项行动进校园
安铜办防溺水安全青年学生专项行动进校园
-
投资者提问:最近发电机公司有的都暴涨连续涨停板,明明公司成长性怎么样??中...
投资者提问:最近发电机公司有的都暴涨连续涨停板,明明公司成长性怎么样??中...
-
刚刚通报,河北新增2例本土无症状感染!
刚刚通报,河北新增2例本土无症状感染!
-
直播预告|北京昨新增本土5+1,今天下午4点召开发布会
直播预告|北京昨新增本土5+1,今天下午4点召开发布会
-
日常生活,需要一个人常怀欢喜之心
日常生活,需要一个人常怀欢喜之心
-
-
-
-
奠基石百年学府!曲师大举行曲阜校区扩建项目竣工仪式
奠基石百年学府!曲师大举行曲阜校区扩建项目竣工仪式
-
多达一个月股价跌多达50%,傲农生物:4月份起生猪销售头均毛利较一季度已明显改善
多达一个月股价跌多达50%,傲农生物:4月份起生猪销售头均毛利较一季度已明显改善
-
熬猪油时,学会“2没用3多放”,保证猪油又白又香,不腥不发苦
熬猪油时,学会“2没用3多放”,保证猪油又白又香,不腥不发苦
-
蒸红薯,不要直接上锅!教你“少1步多1步”,软绵香甜,不了水汽味
蒸红薯,不要直接上锅!教你“少1步多1步”,软绵香甜,不了水汽味
-
甘肃昨日新增1例原发性感染者
甘肃昨日新增1例原发性感染者
-
评论丨启功书法赝品印上北大学生证,一个尴尬的隐喻
评论丨启功书法赝品印上北大学生证,一个尴尬的隐喻
-
-
-
苹果VR/AR头盔曝光 传了10年的死讯终于要实现了吗?
苹果VR/AR头盔曝光 传了10年的死讯终于要实现了吗?
-
芝麻香油、小磨香油有啥区别?听据传油工怎么说,牢记1点优质好吃
芝麻香油、小磨香油有啥区别?听据传油工怎么说,牢记1点优质好吃
-
看淡心境才都会秀丽
看淡心境才都会秀丽
-
徐汇又一家商超恢复营业,浓浓烟火唯美又回来啦!
徐汇又一家商超恢复营业,浓浓烟火唯美又回来啦!
-
平安人寿董事长杨铮任职申请人获批
平安人寿董事长杨铮任职申请人获批
-
Polycom宝利通soundstation2基本型/标准型/引入型八爪鱼会议电话简要说明书
Polycom宝利通soundstation2基本型/标准型/引入型八爪鱼会议电话简要说明书
-
-
-
-
众人离职互为,特想离职但又不能,都因一个“难”字
众人离职互为,特想离职但又不能,都因一个“难”字
-
炙手可热的元宇宙造型师:有捏脸师月盈利近四五万元
炙手可热的元宇宙造型师:有捏脸师月盈利近四五万元
-
天空干打雷不下雨,朱元璋:有孝子蒙冤了!遂亲审死囚,果然如此
天空干打雷不下雨,朱元璋:有孝子蒙冤了!遂亲审死囚,果然如此
-
“包”过!李沧这位班主任手绘帆布包给中高考送上祝福
“包”过!李沧这位班主任手绘帆布包给中高考送上祝福
-
时尚博主上线!林允穿着毛绒大衣搭阔腿裤,纯蓝look让人眼前一亮
时尚博主上线!林允穿着毛绒大衣搭阔腿裤,纯蓝look让人眼前一亮
-
江阴减税降费助防疫物资生产企业“疫”马当先
江阴减税降费助防疫物资生产企业“疫”马当先
-
-
-
创新质量和安全管理,患者及其家属齐加入
创新质量和安全管理,患者及其家属齐加入
-
一起守“沪”|蔬菜瓜果齐缺阵 浙江长兴驰援上海“菜篮子
一起守“沪”|蔬菜瓜果齐缺阵 浙江长兴驰援上海“菜篮子
-
这个男人不会老吗?吴尊带女儿nei nei 上封面,网友:一点一定会变
这个男人不会老吗?吴尊带女儿nei nei 上封面,网友:一点一定会变
-
鱼肉去腥,别只会加料酒和怀,卖鱼大叔独门秘方:鱼肉没腥味更嫩
鱼肉去腥,别只会加料酒和怀,卖鱼大叔独门秘方:鱼肉没腥味更嫩
-
高考毕业生扎堆做近视手术 专家提示:并非人人可做
高考毕业生扎堆做近视手术 专家提示:并非人人可做
-
清热降火的王老吉大凉啤 愚蠢就是火锅和烧烤的好伴侣
清热降火的王老吉大凉啤 愚蠢就是火锅和烧烤的好伴侣
-