联系我们 contact us
地址:北京市朝阳区汤立路
   218号明天·STUDIO·A座
010-84678879

您当前所在位置:主页>技术共享>物联世界>

而加载AI分析能力的摄像头可以视为视觉模态的物联网设备楼宇能源计量
时间:2018-07-12 21:07 作者:佚名 点击:

而加载AI分析能力的摄像头可以视为视觉模态的物联网设备楼宇能源计量

  欢迎关注“创事记”的微信订阅号:sinachuangshiji

  文/脑极体

  技术这个事情,很多时候不是一蹴而就的。

  更多时候,是大家先看到了一个东西非常美好,结果左发展右发展也发展不起来,在吃瓜群众们兴奋地送上一首《凉凉》之后,搞不好哪天却突然一个胜负手抛出来,一切又都不一样了。

  曾经的移动通讯、触屏交互莫不如是,今天的3D打印、VR说不定也在重复这个套路。更明显的可能是物联网。这个我们念叨了好多年,虽然也一直在发展,但始终没有大热的技术,到底在等待什么呢?

  等待AI?但是音箱刮过一阵语音交互的风潮之后,IoT设备搭载语音控制模块也火了起来。可是直到今天,我们好像发现物联网还是那个物联网,基本没什么变化。

  让我们往更深层开个脑洞,“AI of Things”在等待的,可能不仅是语音交互,而是耳目鼻口耳协同工作的多模态AI交互。

  你不温柔,我不主动:为什么我们始终远离IoT?

  首先我们要搞懂一件事:为什么给设备联网的方案推行了这么多年,我们身边,**猜你喜欢智慧社区建设**,包括工业和工程领域,真正用到的物联网设备还是没有多少?

  答案在于,光给机器设备联网是没用的。你家的桌椅板凳又不想聊微信逛淘宝看快手,它们要网作甚?

  人最终需要的是服务,所以设备仅仅联网是没用的,联网之后必须能干点什么才行。这就需要两件事情:1、人与设备可交互;2、设备能够感知到人的需求。

  在触屏、键盘和手机集成遥控模式,都被证明太麻烦之后,物联网开始把目光投向了能够提供自然交互与感知能力的AI。

  机器能够听懂人类说话,并且产生对话并提供服务,似乎某种意义上从源头解决了物联网设备缺乏实际价值的尴尬。于是我们见到了越来越多搭载语音交互平台,能够实现对话的物联网设备。从电视、冰箱到家居设备,再到各种终端不胜枚举。

而加载AI分析能力的摄像头可以视为视觉模态的物联网设备楼宇能源计量

  但实践下来发现,这种模式问题还是不少:比如语言控制不如屏幕控制那么精准,很多时候会误判指令和错误唤醒,比较语言充满了不确定性;再比如,语音交互的物联网设备还是缺乏主动服务的能力,只是换了操作方式而已,用户体验没有本质提升。

  仅仅是“能听”,并且还经常听错的物联网设备,就像是两个人谈恋爱,其中一方从来不看你,不会知冷知热、嘘寒问暖,还经常搞错对方的意思,那另一方当然表示我懒得理你…

  目前来看,把按钮换成了语音命令平台,隐藏的不确定性太多,而实际价值太少,很难成为物联网爆发的真正依托。

  这种“你不温柔我不主动”的人机关系究竟怎么改变呢?

  答案也许是让机器能够听和说之外,还要能看,能感觉,甚至能将五感联系到一起进行思考。

  感知到交互:机器的五感俱全

  所谓“模态modality”,是德国生理学家赫尔姆霍茨提出一种生物学概念。即生物凭借感知器官与经验来接受信息的通道,比如人类有视觉模态、听觉模态等等。

  后来这个概念引申到人文科学领域,成为哲学和文学上的一种话语批评方式;而来到机器人和计算机科学领域,就成了机器与物理世界联系的通道。

  假如我们把“模态”通俗地理解为感官,那么智能音箱就是只具备听觉模态的物联网设备,而加载AI分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起,多模态物联网也就诞生了。

而加载AI分析能力的摄像头可以视为视觉模态的物联网设备楼宇能源计量

  事实上,在AI研究当中多模态转换是非常普遍的课题。比如一个很出名的AI研究方向是让智能体根据看到的某张图片来生成文字(也有看到文字生成图片和视频的),这就是让AI模型完成在视觉和语义之间的模态转换。

  运用到物联网设备当中,**猜你喜欢工况监测**,今天主要的AI感知模态有三种:1。 语音交互,包括语音指令控制、语义理解、多轮对话、NLP、语音精准识别等领域;2。 机器视觉,包括自然物体识别、人脸识别、肢体动作识别等;3。 传感器智能,包括AI对热量、红外捕捉信号、空间信号的阅读与理解。

而加载AI分析能力的摄像头可以视为视觉模态的物联网设备楼宇能源计量

  把这三种东西融合在一起,物联网设备就可以在单纯的能听会说之外,同时还用摄像头观察、用传感器判断。而比较前沿的多模态感知研究当中,还包括机器嗅觉,机器触觉和情绪理解等内容。

  我们在等待的下一代物联网设备,很可能诀窍就是把这些模态给揉在一起,完成从多模态感知到多模态交互的体验。用一句我们十分熟悉的话说,就是要让机器身上的五感“生态化反”…

  今天让人乐观的多模态交互型IoT

  又能听,又能看,又有传感器的设备,听上去似乎有点过分乐观了。但好在综合了较多采访与观察之后,我们发现今年确实是值得为多模态物联网设备乐观一下的时候。

  可以看到,很多双模态交互,甚至多模态混合交互的解决方案都在从实验室里走出来,甚至已经可以在我们生活中看到。这些解决方案更重要价值是作为案例,可以让更多企业、开发者和垂直行业看到多模态物联网的可复制价值。

  举例来说,离我们最近的多模态AI交互技术投射在物联网设备上,大概就是用机器视觉技术进行嘴唇识别,来分离语音交互指令。我们可以看到很多实验室和科技公司,都在尝试用机器视觉来读取说话人的唇语和动作,从而判断每个声音指令的来源。

  这种技术已经在国内被运用到地铁售票解决方案中,通过机器视觉来识别买票人,从而在地铁站的嘈杂环境中完成语音售票。

而加载AI分析能力的摄像头可以视为视觉模态的物联网设备楼宇能源计量

  另一个我们能看到的例子是空调。在一些新的智能空调解决方案中,空调会在语音交互的基础上通过机器视觉来判断用户的位置,提供智能送冷,并且会结合传感器判断屋内温度和湿度,提供更精准的环境方案。

网站地图 | RSS订阅 | RSS地图 | 网站首页 | 关于我们 | 技术共享 | 产品中心 | 成功案例 | 加盟我们 | 客户服务 | 联系我们 |
工况监测
    地址:北京市朝阳区汤立路218号明天·STUDIO·A座
    电话:0086-10-8467  8879      TEL:0086-133  6699  5587   (电话推销勿扰)
    版权所有:新企力(北京)检测服务有限公司   工作时间:(周一至周五  8:30-17:30)
    邮箱:web#xqili.com   京ICP备15050323号  
关闭