人工智能视觉感知领域,人工智能视觉感知领域包括

ai视觉行业有哪些

商汤科技(SenseTime)专注于计算机视觉和深度学习原创技术,通过研发视觉技术,赋予计算机视觉感知和认知的能力,商汤科技在人脸识别、物体识别、图像搜索、智能监控领域都有布局。

2017年11月28日消息,人工智能独角兽商汤科技获得了来自阿里巴巴的15亿元新一轮融资,估值超30亿美元。

而在这之前,商汤已经在7月份获得了4.1亿美元的B轮融资,而这个B轮融资已经刷新了当时的人工智能融资最高纪录。

因此就以这个融资角度来看,商汤科技可以称得上是人工智能行业的独角兽了,当然商汤科技之所以能够被资本市场看好,完全是因为他们的核心团队,创始人是汤晓鸥是AI领域的领军人物,专注于计算机视觉的研究多年,获得美国麻省理工学院的博士学位,他被誉为全球人脸识别技术的“开拓者”和“探路者”,在这样一个人物的带领下所创立的团队,自然被资本

?

目前,商汤科技、旷视科技(face++)、云从科技、依图科技被称为中国的四大独角兽,李开复也曾惊叹人工智能领域居然能有四个独角兽,并给予了警告,认为存在一定泡沫。

不过,我个人认为目前AI尤其是人脸识别处于井喷状态,能出现四家独角兽也不足为奇。

这四家独角兽当中,除了商汤知名度最高,旷视科技(face++)也具有相当高的知名度,因为阿里巴巴旗下蚂蚁金服亦是旷视科技的投资方,而且阿里巴巴的支付宝用的人脸识别解决方案就是用的旷视科技的。

什么是智能视觉感知

智能视觉感知是让视觉系统中融合AIS数据,雷达数据和电子海图数据,为船舶自主航行提供感知能力,让动力系统数据和感知数据自由交互,为船舶在海上自由航行提供安全保障。

作为一个兼容性极强的平台,智能视觉感知系统还可以接入雷达、声呐、AIS、GPS等用于海上导航的各类工具系统。

针对海事领域,快速发现并满足游船游艇、商船、工作艇、渔船、游轮及其他多种船型的各种需求。

智能视觉感知能够在任何状况下进行辅助导航,侦测其它船舶,协助船外搜索,确保海港和公开水域(反海盗)的船只安全,以及清晰掌控黑暗中的一切行动。

智能视觉感知在海洋环境中的应用高效实用,能够满足以下客户需求:

港口、航道以及沿海安全、海事安全、海上非法入境侦测、海上执法、反海盗与威胁探测、渔船队保护、船舶跟踪与观察、搜索救援行动、环境保护。

即便是雷达系统无法探测到的物体,如帆船、木船及漂浮物等,均难逃“火眼”。

人脑视觉感知机制是什么样的

解密人脑视觉感知的基础机制

这几年人工智能非常热闹,但我认为人工智能是意识错觉,是思维陷阱,是海市蜃楼,是镜花水月,看似近在眼前,触手可及,实则缥缈虚幻,永无成功的可能。人工智能上升为国家战略,那必将成为国家战略陷阱,投入越多,损失越大,丝毫侥幸的机会都没有。

沉迷于人工智能狂欢盛宴的人们并不了解人脑感知和思维的真相,在这种情况下企图实现让机器像人类一样思考,怎么可能?

我自幼对自己的大脑异常地感兴趣,这个兴趣史几乎和我的年龄一样长,我猜我可能碰巧发现了人脑感知和思维的秘密,并且我觉得人脑的感知和思维机制可能是这个宇宙中唯一可行的感知和思维机制,而人工智能与这个机制相去甚远,甚至可以说半毛钱关系都没有。人工智能能不能做其它事我不知道,但我非常确信人工智能对于实现让机器像人类一样思考的目标而言,那就是刻舟求剑、缘木求鱼,无论如何努力,无论付出多大的代价,最终都会是竹篮打水一场空。

解释人脑感知和思维的秘密非常困难。最大的困难在于这是另外一个观念体系,我们无法从人类现有的观念体系中推导出来。人类现有的观念体系就像是一个巨大的漩涡,我们自一出生就被深深地裹挟其中,无法挣脱。可是另建一个观念体系,想一想都是“脑阔痛”。其次的困难在于解释需要使用语言,但“语义不在语言里,语义在大脑的印象里”,人们理解这句话都存在困难,更何况去理解我所使用的语言。再次的困难在于听我解释的人没有和我一样的观念和体验,我的观念独一无二,纯属胡思乱想,我的体验绝无仅有,完全匪夷所思。可要想听懂我的解释,必须得接受我的观念去亲身体验,在有了体验之后我们才有可能交流沟通。最后的困难在于认识和理解是一个自我否定的过程,其中的艰难困苦无法想像,只有经历的人才知道,听我解释的人受得了吗?想一想这些困难,我的退堂鼓擂得震天响,若非迫不得已,我真懒得解释。

我认为人脑的感知和思维的基础机制是一样的,或者说是同一的,但相对而言,感知比思维要简单得多。视觉感知是人脑感知中最主要且最重要的部分,当然,视觉感知与听觉感知、触觉感知的基础机制也是一样的,只是唯独视觉感知我们可以用眼睛去体验,体验的结果相对更直接、更明确,更具有冲击效果,更有利于我们能够形成一致的认识。因此,我愿意解密一点人脑视觉感知的基础机制,用以警醒沉迷于狂欢中的人们。

一、基础观念的体验:

解释人脑视觉感知的基础机制必须得先接受我的两个基础观念:第一,眼睛只能看清眼前事物的局部;第二,定住眼睛我们最多只能看清相邻的两个字。

1、眼睛只能看清眼前事物的局部。

所谓“眼睛只能看清眼前事物的局部”的意思是:在某一瞬间我们的眼睛只能看清眼前事物的某个局部,我们的眼睛无法看清眼前事物的整体。这里面的关键在于“看清”,而不是“看见”。我们能“看见”的可能很多,但能“看清”的确实不多。

例如我们看这篇文章,在看第一段的时候,我们应该看不清第二段的内容;例如我们看一副画,在看上部分画面的时候,我们应该看不清下部分的画面;即使是看眼前的一张桌子,我们在看桌面的时候,我们应该也看不清桌脚的样子;看一个人的脸庞的时候,我们应该看不清他的鞋子,看清这个人鞋子的时候,我们应该又看不清他的脸庞了;甚至在看手机里内容的时候,我们都看不清自己拿着手机的那只手。

这个观念我天天都在验证,已经验证了几十年,对我而言这是一个常识。可能很多人并未像我一样觉察到这个事实,也可能有一些人已经觉察到了,我觉得首先发现这个事实的人应该不会是我。

“眼睛只能看清眼前事物的局部”,这是我解释人脑视觉感知基础机制的一个基础观念。观念本身并无多大意义,经过体验验证的观念才有意义,这就是我理解的“实事求是”。我说什么并不重要,重要的是我们自己的体验结果,只有这个体验与观念相符,我们才会接受这个基础观念,进而形成我们共同的基础事实。要是没有这样的基础事实,我的解释就失去了依托。好在我们都有眼睛,我们应该不难达成共识。

2、定住眼睛我们只能看清相邻的两个字。

所谓“定住眼睛我们只能看清相邻的两个字”的意思是:在眼睛定住不动的情况下我们最多只能看清相邻的两个字。这是我非常得意的一个奇想。

我早忘了是哪一天,反正是在苦思冥想的过程中,我突发奇想地猜测:如果我想的都是对的话,那么我们的眼睛应该最多只能看清两个字。自己定睛一看,居然猜对了!

例如当我们看“解密人脑视觉感知的基础机制”这几个字时,初一看,我们会感觉至少可以看清五六个字以上,甚至是全部,但是当我们把眼睛定住盯在“解密”这两个字上,不要左右晃动,维持三秒钟以上,我们就会发现旁边“人脑”这两个字是模糊的,看不清楚的;当我们把眼睛从“解密”这两个字向右移动一个字,到“人”字上,再维持三秒钟,我们就会发现可以看清“密人”两个字,而先前清晰的“解”字则变模糊了。

无论看什么文字,我们都会发现在眼睛定住不动的情况下只能看清相邻的两个字。我称这个大脑实验为“两字实验”。

当我猜对了这个“两字实验”的答案时,我感觉自己任督二脉打通,大功告成。若读者体验不到我提出来的观念,或者对这个观念的体验结果一点惊奇都没有,那似乎就没有任何必要继续看下去了。

二、基础机制的验证:

基于第1个观念“眼睛只能看清眼前事物的局部”,我提出了一个猜想,人脑视觉感知的基础机制应该是:局部独立感知,整体叠加合成;基于第2个观念“定住眼睛我们最多只能看清相邻的两个字”,我进一步提出的猜想是:局部即“两像”,“两像”是大脑运行的基本单元。

这两个猜想我已经验证多年,早就深信不疑,它们就是我想要解密的基础机制。

1、局部独立感知,整体叠加合成。

第一,我们必须得体验到“眼睛只能看清眼前事物的局部”的基础事实,然后必须得接受“眼睛只能看清眼前事物的局部”的基础观念。

第二,我们必须接受另一个基础观念:“不是眼睛看见,而是大脑看见”。这是我幼年时就接受并坚信的一个基础观念,眼睛只是光线的接收器官,它不可能看见,真正能看见外界的应该是我们的大脑。

第三,综合第一和第二,我们得出一个新观念:眼睛之所以只能看清外界的局部是因为大脑只能对外界的局部进行感知。

第四,基于我多年的体验,我相信大脑对外界局部的感知是“独立”的。我说的感知包括感觉和认知,所谓的“局部独立感知”指的是感觉与认知的关系是对应的,“局部感觉”会有对应的“局部认知”。从感知机制上说,不存在“整体感觉”,也不存在“整体认知”,当然更不存在“整体感觉”与“整体认知”的对应关系。

第五,人脑对外界整体的直觉印象是由局部感知“叠加合成”的。我猜在大脑中一个局部感知与另一个局部感知之间是“独立”的,它们之间的关系不是“并列关系”,而是“前后关系”,不是“拼接关系”,而是“叠加关系”,它们在感知机制的作用下共同形成了人脑的直觉印象。然而,我们大脑中的直觉印象中根本感知不到“前后关系”和“叠加关系”,直觉印象以为感知到的是一个整体,以为是“整体感觉”对应着“整体认知”。

打一个不准确的比喻,人脑视觉就像是一个圆柱体,局部感知一层一层地“叠加合成”了这个圆柱体,但人脑的直觉印象却只是上面的“圆面”而已;不过,事实上局部感知一层一层叠得并非那么整齐,我们的直觉印象也并非只是一个“圆面”,实际效果可能是奇形怪状,不一而足。

视觉感知是大脑感知中最主要也是最重要的部分,这个“局部独立感知,整体叠加合成”的基础机制,既是人类的愚蠢之根,也是人类的智慧之源,理解它非常不容易。

图1:

图1中的美女是安吉丽娜茱莉,虽然图1是倒着的,但是我们仍然感受到了安吉丽娜茱莉的美貌和笑容,并没有什么不对。可是如果我们将这张图倒过来,那会是什么状况呢?

图2:

一看吓了一大跳,这哪里还是安吉丽娜茱莉,这简直就是个女魔头?为什么我们在看图1的时候我们却看不出来呢?同一张图,只是颠倒一下,而我们的感知却是如此地天差地别,我们如此信赖的感知系统究竟出了什么问题?

首先,仔细地看这张图,尤其是尝试定住眼睛,我们会发现实际上我们只能“看清局部”。看清嘴唇时,我们看不清鼻子和眼睛;看清鼻子时,我们看不清眉毛;甚至看清左眼时,我们看不清右眼;看清上嘴唇时,我们看不清下嘴唇。虽然我们不是同一个人,但我相信我们看到的结果应该是一样的。

其次,两张图的区别在于:图1的脸庞是倒置的,但是嘴唇和眼睛却是正置的,图2的脸庞是正置的,但是嘴唇和眼睛却是倒置的。

最后,是大脑对嘴唇和眼睛等局部的认知形成了我们对图1和图2整体的直觉印象。图1中的嘴唇和眼睛是安吉丽娜茱莉正常的嘴唇和眼睛,这正常的嘴唇和眼睛与我们记忆中人类正常笑容时嘴唇和眼睛的形状一致,因而我们对图1中嘴唇和眼睛的局部感觉产生了“笑容”认知,而这个局部认知经“叠加合成”后就成了对图1的直觉印象。图2是把安吉丽娜茱莉的嘴唇和眼睛倒放过来,这倒放的嘴唇和眼睛与我们记忆中人类的“狰狞”面容相一致,因而我们对图2中嘴唇和眼睛的局部感觉产生了“狰狞”认知,而这个局部认知经“叠加合成”后就成了我们对图2的直觉印象。

图3:

图3中实际上都是正方形,但是我们的视觉直觉印象却感知不到正方形的存在,曲曲折折的,没有一点正方形的感觉。我们的视觉感知系统明显出了问题,这是怎么回事?

首先,无论定住眼睛看图3的任何一个部分,我们都只能看清某一个局部,而任何一个局部的线条都是有曲折或倾斜的,没有完全明显的直角存在。

其次,大脑对图3的感知是一个一个局部“叠加合成”在一起,而每一个局部都是有曲折或倾斜的,因而我们大脑对图3整体的直觉印象就是曲折和倾斜的,我们无法产生正方形的直觉印象。

我们的大脑对任何一个普通正方形的感知也是“叠加合成”的,这个感知过程会在大脑中形成“记忆”,我们之所以产生不了正方形直觉印象的根本原因是感知与记忆不相符,记忆中的正方形不是我们当前感知的状况,因而我们只能产生曲曲折折的直觉印象。关于“记忆”的基础机制不在本文的解密范围之内。

图4:

图4中都是同心圆,但我们却丝毫看不出圆的样子。这也是因为图4中没有任何可以感知出圆形的局部,我们的大脑自然无法“叠加合成”出一个圆形的直觉印象。

图5:

图5是把两张完全相同的比萨斜塔照片合在一起,但是我们视觉的直觉印象却感觉这两张照片中比萨斜塔的倾斜角度好象不一样,似乎右图比萨斜塔的倾斜角度要比左图的大。明明一样,怎么会被我们看出了不一样?

两张照片里的比萨斜塔是完全一样的,但是照片里比萨斜塔的左边倾斜角度要比右边的大。当把两张照片拼接到一块时,在中间的这个局部,右图比萨斜塔左边倾斜角度和左图比萨斜塔右边倾斜角度相比要大。由于我们大脑只能“看清局部”,我们大脑对这个局部的感知是“右边比左边倾斜”,经“叠加合成”后,这个局部的感知就被当作了大脑视觉对整体的直觉印象,并且还是一个我们无法克服的直觉印象!

图6:

图6也是两张相同的图并列在一起,但我们直觉印象觉得这两张图中的街道似乎“不一样”。这也是因为左图街道的右边呈直线状,而右图街道的左边呈斜线状,两者相交的局部感知是右图街道与左图街道之间存在倾斜的角度,右图相对左图更倾斜,经“叠加合成”后,人脑的直觉印象就是“右图街道比左图街道更倾斜”。

图7:

图7与前几张图不一样。对前几张图中的任何一张图,我们视觉的直觉印象与外界事实不一致,但感知结果只有一个,但图7使我们却产生了两种不同的感知结果,一会儿是人脸,一会儿是花瓶。似乎我们的感知系统没个定性,变来变去,这又是为什么?

首先,我们只能“看清局部”。图7中有2条线条将全图分为3个局部,左边和右边的局部看起来像人脸,而中间的局部看起来像花瓶。事实上,当我们看左边局部的时候,我们看不清中间和右边的局部,看中间局部的时候,我们也看不清左边和右边的局部。我保证大家看右边人脸的时候绝对也看不清左边的人脸。

其次,左右两边的线条与人脸的轮廓很像,对这两条线条的感觉,大脑独立产生了两个人脸的认知;两条线条中间的局部看起来与花瓶很像,于是大脑就独立产生了一个花瓶的认知。

最后,由于人脸和花瓶的直觉印象相差太远,大脑无法将其“叠加合成”成一个整体,所以我们只能一会儿感觉是人脸,一会儿感觉是花瓶,我们绝对无法同时感觉到人脸和花瓶,这里存在“前后关系”。

图8:

图8一会儿看起来像“少女”,一会儿看起来像“老妪”,原理和图7一样。

我们只能“局部感知整体合成”,因而我们绝对无法同时看见“少女”和“老妪”,只能一会儿是“少女”,一会儿是“老妪”。当我们产生“少女”认知时,我们眼睛注视的局部一定是左边中部的位置,像是“少女”的“脸颊”,“少女”的颈脖处有一条“颈带”;当我们产生“老妪”认知时,我们眼睛注视的局部一定是先前“少女”的“颈带”处,这时它就成了“老妪”的嘴唇,而“少女”的“脸颊”则成“老妪”的“鼻头”,“少女”的“耳朵”成了“老妪”的“眼睛”。

图9:

“潘洛斯阶梯”首尾相连,要么一直循环向上,要么一直循环向下,这不可能在现实世界中存在,但看起来却非常地正常,我们感觉不到哪里不对。

“潘洛斯阶梯”从根本上来说只是一张图而已,图上画的东西并不一定非得在现实世界有对应的存在,“潘洛斯阶梯”的核心问题在于我们是如何感知这张图的。

我们定住眼睛看这些阶梯,无论是看哪个位置的阶梯,我们都只能“看清局部”。我们的大脑对“潘洛斯阶梯”的每一个局部的感知都是正常的、合理的、没有问题的,而这些局部感知被我们的感知机制“叠加合成”成对整体的感知,因而我们对“潘洛斯阶梯”的整体直觉印象就是正常的、合理的、没有问题的。

图10:

图10中的三角形看起来也非常正常,似乎没有问题,但它同样不可能在现实世界中存在,而只能存在于人类的意识之中。

当我们定住眼睛看图10中的任何一个局部,我们对任何一个局部感知是正常的,是没有问题的,经“叠加合成”后的整体直觉印象也是正常的、没有问题的。

再打一个不是很准确的比喻,这个三角形和逻辑三段论很相似,甚至可以说是基于相同的原理。“由于A角和B角的连接是正常的,又由于A角和C角的连接是正常的,所以B角和C角的连接肯定就是正常的。”人们早就发现了逻辑的问题,但却一直解决不了逻辑问题,深刻理解人脑视觉感知机制是解决这一问题的必由之路。

图11:

图12:

图11中的“莫比乌斯环”和图12中的“克莱茵瓶”可以在现实世界有对应的存在,但现实世界存在的“莫比乌斯环”和“克莱茵瓶”并非“科学家”头脑中的“莫比乌斯环”和“克莱茵瓶”。从某种意义上说,“科学家”头脑中的“莫比乌斯环”和“克莱茵瓶”并不是“物”,而是“空间”。

我猜这可能是“科学家”不了解人脑视觉感知机制所产生的一个误会,我们的大脑对“莫比乌斯环”和“克莱茵瓶”的任何一个局部的感知结果都是正常的和合理的,于是我们就认为“莫比乌斯环”和“克莱茵瓶”是正常的和合理的,是有可能存在的,但是这可能只是我们直觉印象的错觉。

图13:

“局部独立感知,整体叠加合成”,这并不是绝对的不好。

据说这是一张令人工智能专家们发狂的图片,人眼很快就能识别出这是只猫,但机器却很困难。

人工智能专家们要是能理解“局部感知决定整体感知”的人脑工作机制,可能会大大地降低对数据的需求量,并大大地提升机器的识别率。

我们大脑在感知这只猫时,是“局部感知”的。只要看清了猫的头部,大脑就能比较准确地产生了猫的感知,只要不存在其它强烈的、明确的、无法合成的局部感知,我们的直觉印象便非常坚定地相信这是一只猫。

当然,如果某些局部感知与大脑对猫的记忆相差太远,大脑就无法合成出一只普通猫的印象,例如猫头蛇身,大脑将合成出一种全新的印象。

人工智能的专家们很可能不懂得这个机制,我觉得他们是在对图形中需识别的对象进行整体感知,但这种方式显然费时费电,且缺乏变通。无论刚开始时如何“智能”,最终的结果一定会变成“智障”!

2、局部即“两像”,“两像”是大脑运行的基本单元。

“眼睛只能看清眼前事物的局部”的事实我已经发现很久了,可还是有很多困惑,最重要的困惑在于仍然不了解大脑运行最基本的单元。之所以提出“两字实验”是因为我有一个“两像”猜想,“两字实验”验证的并不是眼睛能看清多少字的问题,而是人脑视觉感知机制的基本单元究竟是什么的问题。我猜人脑视觉感知机制的基本单元是“两像”,这个实验居然验证了我的猜想。

“两像”肯定不是“两字”,“两字”是“两像”机制运行后的人脑所感受到的直觉印象,“两像”是产生“两字”直觉印象的感知机制。“像”的结果可以是字,也可以是笔划,事实上当我们定住眼睛看一个字中的笔划时,我们也只能看清相邻的两条笔划。“两像”可以成为两个字、两条笔划,也可以成为两个点、两条线、两条边或者两个面,还可以成为两种颜色、两种形状,甚至可以成为两个声音等等,总之,“两像”可以千变万化。

我唯一信奉的天条是“大道至简”,我相信唯其“至简”,方能千变万化,纷繁复杂。“两像”绝对“至简”,如果是“一像”,那么它就不会有可以变化的余地。

我们看上述任何一张图,只要定住眼睛我们都只能看清相邻的“两像”,大家可以认真地感觉一下,看情况是不是真如我所说。

在未发现“两像”之前,对于人性与思维、情绪与情感、大脑与意识等等问题,我还有很多的困惑,“两像”就是众妙之门,入得此门,我感觉豁然开朗,所有问题统统消散。

“两像”的大意是:第一,人脑只能对局部相邻的“两像”进行处理;第二,“两像”是人脑视觉感知机制的基本单元,人脑一个基本的感知单元只能处理一个“两像”。

图14:

看图14时,我们会非常肯定地认为A和B是完全不同的黑与白,但实际上A和B的颜色是一模一样的,而我们的大脑居然完全感觉不到!我们经常指责别人“黑白颠倒、是非不分”,没想到我们自己居然天生就是这样的人!

“两像”猜想认为我们视觉感知机制的基本单元就是“两像”,我们只能看清相邻的“两像”。在图14中由于A和B并不相邻,所以我们的大脑绝对无法同时处理A和B,也就是说,我们无法同时看清A和B。如果我们的大脑可以同时处理“三像”,那么A和B就应该没有差别。这也反证“两像”是基本感知单元。

具体解释“两像”的运作机制,需要放在“意识模型”的框架内进行,没有“意识模型”无法解释清楚“两像”,但“意识模型”也不在本文的解密范围之中。

图15:

图16:

图15中的两个鬼形和图16中的两条红线实际上都是一样的,但我们的直觉印象却是不一样,为什么?主要是因为它们“不相邻”,它们被它们中间的“像”给搅和了,以至于大脑无法产生“相同”的感知。它们若是相邻,则我们的直觉印象一定是一样的。

我们不必为此烦恼,若是我们能对它们产生“相同”的认知时,那才是我们的麻烦,我体验过,那是感知体系的崩溃!因此,我深刻地认识到人脑的感知机制既是愚蠢之根,又是智慧之源。

人工智能视觉感知领域,人工智能视觉感知领域包括文档下载: PDF DOC TXT
文章来源: 星蕴
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至2384272385@qq.com举报,一经查实,本站将立刻删除。