白小姐2013全年资料:没想到,谷歌AI居然被一张百年老图给难倒了

白小姐开奖直播 www.wfn7g.cn

微信公众号: 量子位(ID:QbitAI)

作者:岳排槐、安妮

上面这张图,画的是鸭子还是兔子?

自从1892年首次出现在一本德国杂志上之后,这张图就一直持续引发争议。有些人只能看到一只兔子,有些人只能看到一只鸭子,有些人两个都能看出来。

心理学家用这张图证明了一件事,视觉感知不仅仅是人们看到了什么,也是一种心理活动。但是,这张图到底应该是什么?

上周四,有位学者决定让没有心理活动的第三方看一下。然后就把这张图片给了谷歌AI,结果AI认为78%的概率是一只鸟,68%的概率是一只鸭子。

所以,百年争论可以歇了?鸭子派胜出?

不不不,新的争论刚刚开始。

这下难倒了谷歌AI

上面那个结论刚出,就有人跳出来“抬杠”。

只要把这张图竖起来给AI看,它认为是一只兔子,压根就没有鸭子的事儿。

咦?谷歌AI反水了?

为了搞清楚这件事,供职于BuzzFeed的数据科学家Max Woolf设计了一个更复杂的实验,他干脆让这张图旋转起来,倒是要看看,谷歌AI怎么判断。

就是这么一转,成了推特上的热门。

咱们以鸭子嘴 (兔子耳朵) 为参考,说下这个实验的结果。过程如下所示,红色代表兔子,蓝色代表鸭子。

图片顺时针旋转。谷歌AI最初认为是鸭子,鸭子嘴指向9点方向。随着鸭子嘴向上转到10点方向,很快谷歌AI就认为画里面是兔子了,直到鸭子嘴转到2点方向之后。此后一段时间,谷歌AI认为既不是鸭子也不是兔子。一直到7点方向,谷歌AI再次肯定图里是一只鸭子。

有人说此刻谷歌AI的内心,可能就像迪士尼动画里兔八哥的这个场景。

还有人给出了更多类似的图片,想考验一下谷歌AI的水平。

比如这种:

以及这种:

等等……据说能看出来鸭子,又能看出来兔子,说明一个人的想象力更好。

大家如果有兴趣,可以自己去尝试。

这里用到的谷歌AI,实际上是谷歌的 Cloud Vision 。这个服务提供了预训练的机器学习模型,可以用来理解图片内容。

页面上提供了Try the API,直接传图就行:

鸭兔幻觉

“鸭兔同图”让不少网友犯了难,这是一个比“鸡兔同笼”更玄幻、更有意思的问题?;褂幸淮笈死?,正常尝试判断AI的心理状态……

网友sangnoir认为,纠结图中到底是什么完全没有意义,图像本身既包含了兔子又包含了鸭子,人类尚且觉得两者都在,何必非得让AI去做“二选一”的定性呢?

下面这个数字大家都认识,但是旋转起来,到底是几呢?

若旋转起来,图片是“6”还是“9”?

谈到旋转,更进一步,之前有个“旋转舞者”的问题更困难。下面这个小人到底是顺时针旋转,还是逆时针旋转,人类的看法也兵分两路:

实际上,当你视线以从左往右的方向扫过这张图时,你看到的是逆时针转圈。反之,当你先看到的是右边时,你眼中的舞者是顺时针旋转的。在计算机视觉上,还有一个专门的名词解释这个现象,即多稳态/双稳态感知。

也有网友表示,这件事恰恰反映了AI识别物体的能力已经高于人类了。

他认为,之所以Google Cloud Vision会连续给出不同答案,是因为AI系统每隔一段时间就会基于旋转的图像重新判断并实时更新。

而人类的大脑往往就卡在第一印象了,所以才会咬定一个物种不放松。

也有人表示,这件事启发了视觉计算从业者反思AI识别物体时的方向问题。比如网友Sharlin就认为,人类在判断物体时对于空间的认识具有先验性,用这样的标注数据训练出的模型,在不知不觉中也将空间和方向等因素考虑在内了。

但是,现在大多数视觉算法都想努力实现某种程度的旋转不变性,还提出了“尺度不变特征转化 (SIFT) ”等概念。 “不变性”可能也反映了人类的局限性,输入方向也是一个重要考虑因素。

胶囊网络或许可行

同一张图片,由于位置不同,AI就产生了不同的判断。也有很多人想到了更多。

传统的卷积神经网络CNN架构中有个弊端,就是缺乏可用的空间信息。

一般来说,CNN提取、学习图像特征来识别物体。拿面部识别任务来说,底层网络学习一般性特征 (比如面部轮廓等) ,随着层数的加深,提取的特征就越复杂,特征也精细到眼睛、鼻子等器官。

问题来了,神经网络用它学习到的所有特征进行最后的输出,但唯独没有考虑到可用的空间信息。人类可以识别出下面这张有些错位的人脸,但CNN就不能。

其实,让神经网络自己学会判断空间的研究已经有了。2017年,“深度学习”三巨头之一的AI大牛Geoffrey Hitton就提出了一种“胶囊网络” (Capsule Networks) 的概念。

胶囊网络的解决办法是,实现对空间信息进行编码,也就是计算物体的存在概率。这可以用向量来表示,向量的模代表特征存在的概率,向量方向表示特征姿态信息。

在论文Dynamic Routing Between Capsules中,Hinton和谷歌大脑的同事Sara Sabour、Nicholas Frosst详细解释了“胶囊网络”的详细情况。

Hinton等人表示,人类视觉系统中,有一个“注视点”的概念,能让人类在视野范围内只对极小部分的图像进行高分辨率处理。

这篇论文假设一个注视点带给我们的信息不仅仅是一个识别对象及其属性,还假设我们的多层视觉系统在每个注视点上都创建了一个类似分析树的东西,并忽略这些分析树在多个注视点之间如何协调。

分析树通??慷峙淠诖胬垂菇?,但是这篇论文假设对于单个注视点来说,分析树是从固定多层神经网络中“雕刻”出来的,就像用石头刻出雕像一样。

神经网络的每一层会被分成很多组神经元,每一组称为一个capsule,而分析树的每个节点对应着一个活跃的“胶囊”。

胶囊是输出是一个向量,这篇论文中,在保持它方向不变的情况下应用非线性缩小了它的量级,确保这个非线性输出不大于1。

也正因为胶囊的输出是一个向量,确保了能使用强大的动态路由机制,来确保这个输出能够发送到上层合适的parent处。

胶囊网络现在的研究阶段,就像本世纪初将RNN应用于语音识别的阶段。有非常具有代表性的理由相信这是一个更好的方法,但很多细节还需要持续观察和研究。

*文章为作者独立观点,不代表虎嗅网立场

本文由量子位 授权虎嗅网 发表,并经虎嗅网编辑。转载此文章须经作者同意,并请附上出处(虎嗅网)及本页链接。原文链接:https://www.huxiu.com/article/288108.html

未来面前,你我还都是孩子,还不去下载虎嗅App猛嗅创新!

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章
  • 我什么时候“反来复去说1+1=2”了?不要无中生有、凭空捏造,还是学点尊重客观事实及其规律吧。 2019-04-20
  • 加大对遗产地生态保护修复力度 2019-04-20
  • 全国法院决胜“基本解决执行难” 2019-03-23
  • “云南导游辱骂威胁游客案”一审宣判:强迫交易罪  云南导游获刑6个月 2019-03-23
  • 四兄弟合伙创业 种植羊肚菌成功 2019-03-12
  • 日本最大规模玩具展会开幕:AI唱“主角” 2019-03-12
  • 这就是批判的武器和武器的批判 2018-07-13
  • 我们为什么不接受师生恋?-光明时评 2018-07-12
  • 大学毕业生是不是越来越过剩?当然大学毕业生可以在多种行业就业,比如农村、服务业等等。不过,过剩还是一种极大的浪费。 2018-07-12
  • 5月天津10区调整主要领导 “70后”一把手已达9人 2018-07-11
  • 和创金服创始人兼CEO房平获第十二届人民企业社会责任奖年度人物奖 2018-07-11
  • 每日一星:凯恩确位——新三狮之新领袖 2018-07-10
  • “两学一做”在山西——黄河新闻网 2018-07-09
  • 尼日利亚巴耶尔萨州州长签署反邪教法令 2018-07-08
  • 【图解】青岛峰会:上合组织三大支柱取得这些新成果 2018-07-08
  • 730| 356| 531| 296| 640| 44| 300| 268| 674| 115|