来源:家长学院  作者:boxi

  神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

  编者按:图像识别既是深度学习最早的突破,也是最成功的应用之一。但是随着应用的深入,传统深度学习方法逐渐黔驴技穷。甚至令一些业界大牛喊出来AI新的凛冬将至。不过,最近AI研究人员从物理学规律上寻找到了灵感,找到了让机器可以识别高维度对象的办法,然后物理学家又发现,AI的这一进展甚至还能为物理研究做出更大的贡献。这是一篇“规范等变卷积神经网络”的介绍读物,作者是JOHN PAVLUS,原文发表在Quanta Magazine上,标题是:Computers Are Learning to See in Higher Dimensions

  计算机现在能开车,下国际象棋和围棋之类的棋盘游戏比世界冠军还要厉害,甚至还会写文章。AI革命在很大程度上源于一种特殊类型的人工神经网络的力量,其设计灵感则源自哺乳动物视觉皮层里面的神经元连接层。事实证明,这些“卷积神经网络”(CNN)二维数据模式学习能力惊人——这种AI尤其擅长计算机视觉任务,比方说识别手写体和数字图像里面的对象。

  但是,如果应用到没有内置平面几何的数据集(比方说3D计算机动画用到的不规则形状模型,或者无人车生成的映射周围环境的点云)里面的话,这种强大的机器学习结构就做得不是很好了。2016年前后,出现了一种称为几何深度学习的新学科,其目标就是要让CNN挣脱二维平面。

  研究人员现在已经提出一个新的理论框架,用来构建可学习任何几何表面模式的神经网络。由阿姆斯特丹大学与高通 AI研究中心的Taco Cohen、Maurice Weiler、Berkay Kicanaoglu以及Max Welling 等人联合开发的“规范等变卷积神经网络”(gauge-equivariant convolutional neural networks,或者规范CNN), 不仅可以检测2D像素数组里面的模式,而且还可以检测球体和不对称曲面立体的模式。Welling说:“对于曲面深度学习问题来说,这个框架是个相当可以确定的答案。”

  在学习模拟的(正好自然映射到球体上)全球气候数据的模式中,规范CNN的表现已经比之前的框架要好很多了。该算法对于改善用3维观察物体的无人机和无人车视觉有帮助作用,对检测从心脏、大脑或其他器官的不规则曲面收集到的数据中隐藏的模式也许也有促进作用。

  为了让深度学习突破二维空间,研究人员的解决方案跟物理有着密切联系。就像爱因斯坦的广义相对论与粒子物理学的标准模型那样,描述世界的物理理论表现出一种所谓的“规范等变”的属性。这意味着在这个世界上的数量及其关系并不依赖于任意参照系(或“规范”);无论观察者是移动还是静止,也不管标尺上的数字离得有多远,它们都是一致的。用不同量表进行的测量必须以一种保持底层事物间关系不变的方式进行转换。

  比方说,假设先以码为单位测一个足球场的长度,然后以米为单位再测一次。测出来的数字会变,但那是可预测的。同样地,两位摄影师从两个不同的位置拍摄物体的照片会产生不同的图像,但是这些图像之间可以彼此关联。不管视角或测量单位如何,规范等变均可确保物理学家的现实模型保持一致。而规范CNN即是对数据做出了相同的假设。

  纽约大学的物理学家凯尔·克兰默(Kyle Cranmer)说:“ (来自物理学的)同样的想法是没有特殊的方向,他们希望将其引入神经网络。”他将机器学习应用于粒子物理学数据。“他们想出了办法。”

  摆脱二维

  2015年,伦敦帝国理工学院计算机科学家Michael Bronstein创造了“几何深度学习”这个词来描述为摆脱二维并设计可学习非平面数据模式神经网络的新努力。这个术语及相关研究工作很快就火起来了。

  Bronstein及其合作者知道,要想突破欧几里德平面,他们需要重新构思一种基本的计算方法,这方法先得让神经网络识别2D图像特别高效。这个方法叫做“卷积”,它然神经网络的一层对输入数据的一小块执行数学运算,然后把结果传递给网络的下一层。

  Bronstein解释说:“大体上,你可以把卷积看作是一个滑动窗口。”卷积神经网络就像滤波器一样将很多这样的“窗口”滑动过数据,从而检测数据是否存在某种模式。对于猫照片,经过训练的CNN也许会利用滤波器来检测原始输入像素里面的低级特征,比方说边缘。而这些特征又会被传递到网络的其他层,去执行其他卷积并提取更高层特征,比方说眼睛、尾巴或三角形的耳朵。接受过识别猫训练的CNN最终会用这些分层卷积的结果为整幅图像分配标签(比方说“猫”或“不是猫”)。

  但是这种方法仅适用于平面。Welling说:“当你要分析的表面变得弯曲时,基本上就会遇到麻烦。”

  在曲面(几何上称为流形)上进行卷积计算,就像在地球上拿着一小块半透明的方格纸,然后试图准确地画出格陵兰岛的海岸线一样。你是没办法在不让纸起皱的情况下把一张方形的纸盖上格陵兰岛,而这意味着当你再把纸铺平时,你所描绘的海岸线会变形。但是,用墨卡托投影(把地球仪投影在圆柱筒上,再把圆柱筒上的地图摊开成为平面地图,并将之用一系列平行的经纬线进行切分)一样也会产生变形。或者,你可以干脆把坐标纸放到一张平面的世界地图而不是地球上,然后再连这些变形也一并复制即可,比方说,地图的整个上边缘其实仅代表地球的一个点(北极)。而且,如果流形不是像球形那样整齐的球体的话,而是类似瓶子的3D形状或折叠蛋白质之类更复杂或不规则物体的话,则在它上面进行卷积计算会变得更加困难。

  2015年,Bronstein和他的合作者找到了解决非欧氏流形卷积问题的一种解决方案,方法是把滑动窗口重新想象成更像是圆形蜘蛛网而不是坐标纸的形状,这样把它按到地球(或任何弯曲表面)上就不会到导致其弯曲、拉伸或撕裂了。

  用这种方式改变滑动滤波器的属性能让CNN更好地“理解”某些几何关系。比方说,这种神经网络可以自动识别出弯曲成两个不同姿势的3D形状(比方说,一个站立的人像和抬起一条腿的人像)是同一对象的实例,而不是两个完全不同的对象。这种改变也使得神经网络的学习效率大大提高。Bronstein说,标准的CNN“要使用数百万个形状的样本,而且需要训练数周。我们只用了不同的姿势的大概100种形状,训练只用了约半小时。”

  同时, Taco Cohen和他在阿姆斯特丹的同事开始从相反的方向去解决同一问题。2015年,当时还是研究生的Cohen并没有研究如何让深度学习摆脱平面。相反,他对自认为很实用的一个工程问题很感兴趣:那就是数据效能,或者说,通常训练神经网络需要数千或数百万个样本,怎么才能把这个数量减少?Cohen说:“深度学习方法可以说是非常迟钝的学习者。” 如果训练CNN是用来识别猫(互联网最不缺猫的图像)的话,几乎是不成问题的。但是,如果你想让网络检测出更重要的内容,比方说肺组织图像里面的癌性结节的话,想要找到足够的训练数据(需要在医学上进行准确适当的标记并且没有隐私问题)并非易事。训练网络所需的样本越少越好。

  Cohen知道,提高神经网络数据效率的方法之一是预先对数据进行特定的假设——比方说,一张图像内的肺肿瘤经过旋转或者镜像后仍然是肺肿瘤。通常,卷积网络必须用同一模式在不同方向上的许多样本进行训练来从头学习才能掌握这一信息。2016年,Cohen和Welling合作撰写了一篇论文,文章定义了如何将其中的一些假设以几何对称方式编码进神经网络。这种方法效果很好,好到2018年时,Cohen和共同作者Marysia Winkels甚至把它进一步推广到CT扫描识别肺癌。成果是可喜的:他们的神经网络只用了其他神经网络所用数据的十分之一即可识别出这种疾病的视觉证据。

  阿姆斯特丹的研究人员不断地进行归纳。他们及时这么找到规范等变的。

|<< << < 1 2 > >> >>|


·上一篇文章:京东冯轶:大数据、人工智能、供应链与消费者
·下一篇文章:挪威发布人工智能战略


转载请注明转载网址:
http://www.kejihe.cn/news/rengongzhineng/20123143212HA2976398A6JBHBG9HA3.htm