您的位置:首页 >科技 >

AI先驱Sejnowski说这完全是关于渐变的

2019-04-20 17:46:47来源:

对于机器学习先驱Terry Sejnowski来说,称为随机梯度下降的数学技术是深度学习的“秘诀”,大多数人并没有真正掌握它的真正意义。在加利福尼亚州拉霍亚Salk研究所庭院的混凝土广场的尽头,有一个距离太平洋有三百五十英尺的地方。有时人们会在滑翔伞中探索从高处坠落。如果他们不那么冒险,他们可以沿着蜿蜒的小径走下去,一直到底部。这是一个很好的地方,可以从中反思称为“随机梯度下降”的数学工具,这种技术是当今人工智能机器学习形式的核心。

几十年来,Terry Sejnowski一直在探索梯度下降。Sejnowski领导Salk团队研究所谓的计算神经科学,他曾是Google的Geoffrey Hinton的导师,他是今年ACM图灵奖的三位获奖者之一,致力于机器学习计算。他经常与Hinton的合作伙伴,Facebook的Yann LeCun和蒙特利尔MILA机器学习机构的Yoshua Bengio分享想法。

Terry Sejnowski在他位于加利福尼亚州拉霍亚的索尔克研究所的办公​​室里。“数学家们发现的是,随机梯度下降的所有意图都是错误的。”

Tiernan Ray为ZDNet。

本周,我和Sejnowski一起坐在他舒适的办公室里,在Salk的混凝土平房内,用书排成了天花板,进行了广泛的关于AI的讨论。一个有趣的主题脱颖而出,认为整个AI领域只是刚刚开始了解梯度下降的深刻现象。

“数学家发现的是,你所有的直觉都是关于随机梯度下降的错误,”Sejnowski说。

另外:谷歌的DeepMind询问AI失败意味着什么

要理解为什么这需要Sejnowski的简短历史课。他非常适合这项任务,撰写了一本关于这个主题的精湛书籍,这部分是回忆录和部分科学课程,名为“深度学习革命”。

Sejnowski回忆起人工智能从20世纪50年代诞生以来如何发展。人工智能的“基于规则”的研究人员,采用基于逻辑和符号操纵方法的人,几十年来一直试图使他们的方法有效,但都失败了。他们的失败在八十年代和九十年代为替代学派的安静进步留下了空间,包括Sejnowski和Hinton以及LeCun和Bengio在内的“联系主义者”。连接主义在Naughts取得了惊人的成功,重新深入学习。

路易斯卡恩在加利福尼亚州拉霍亚的索尔克研究所(Salk Institute)的广场上俯瞰着海拔三百五十英尺的地方。

Tiernan Ray为ZDNet。

失败的逻辑系统和深度学习之间的区别在于规模。与基于规则的基于逻辑的方法不同,连接主义者的神经网络能够扩展到越来越大的问题,因为计算机越来越强大,数据越来越丰富。规则没有扩展,但从数据中学到了。其余的都是历史,至少对Sejnowski而言。

“看,那些追求逻辑的人有五十年的时间来证明它没有扩展。而现在,我们有三十年,从八十年代到今天,表明它[连接主义]确实有规模。

“在这里,至少有一些模式,模式识别,强化学习等等,我们有一些可扩展的东西,”他说。

虽然大数据和不断增加的计算使得所有这一切成为可能,但如果不是因为渐变的神秘潜在现实,那么任何东西都不会缩放。

“事实证明,看起来好像随机梯度下降是魔法,秘密酱,”他说。

“它有一些特别之处。”

神经网络的误差可以被看作是一个人们试图找到最低点的山谷,如Li et al。,2018的这种可视化中所示。在机器学习中称为最低点的徒步旅行在机器学习中称为随机梯度血统。在向较小的误差下降的各个点之后,人们可能被困在成功的假点,局部最小点或鞍点,因为它们被称为。

Li等,2018:https://arxiv.org/pdf/1712.09913.pdf

梯度下降是神经网络的优化方法。神经网络具有所谓的权重,其决定神经网络的任何单个组件应该对网络生成的最终答案做出多少贡献。

为了找到正确的权重混合,神经网络通过搜索类似于山谷的几何坐标的景观来调整这些权重。神经网络响应于数据重复调整权重,以便找到从谷的顶部(表示最大误差)到谷中的最低点的路径,其表示神经网络可以实现的最小误差量。

如果它像拉霍亚的悬崖一样容易,这个过程对于计算机来说就是一件简单的事情。相反,随机梯度下降就像在未知的山腰中徘徊,试图找到最快捷的方式。

Sejnowski认为,因为梯度下降只是一个数学构造,是搜索解决方案的几何模型,人工智能的整个领域才刚刚开始掌握搜索的神秘性。

此外:谷歌探索AI的神秘多面体

在80年代,麻省理工学院的科学家马文·明斯基(Marvin Minsky)嘲笑这种梯度只是“爬坡”。(梯度下降的倒数就像是提升到最高准确度的顶峰。)在明斯基看来,这是一次不起眼的搜索,没有什么比真正的学习更能代表真正的智慧。迄今为止,类似的攻击已被深入学习。

但是,Sejnowski认为,这种攻击无法理解所关注的内容是如此缓慢,因为越来越大的计算能力揭示了梯度的各个方面。

“这是我们发现的,以及明斯基无法想象的东西,”他说,“因为他生活在如此小的问题的低维度世界中,你无法真正探索当你有一个问题时会发生什么。巨大的空间,里面有十亿个参数。“

已经发现的是,人们对梯度下降的看法通常是错误的。

在简单的神经网络搜索中,在只有两维或三维的几何图形中,对山谷底部的那个地方的追求充满了错误的转弯,称为虚假的局部最小值,就像沿途的山脊,只看起来像是山谷地板。

此外:LeCun,Hinton,Bengio:AI同谋获得了着名的图灵奖

深度学习能够通过结合更大的数据集,更多的网络层和诸如“退出”之类的技术来克服这些局部最小值,其中权重从网络中被修剪。

然而,Sejnowski的观点是,局部极小的陷阱内部可能非常强大。随着更强大的计算机模型的数学变得越来越复杂,所有这些错误的转变开始形成更有意义的东西。

“如果你有一百万个尺寸,而你正在下降,而你来到一个山脊或其他东西,即使一半的尺寸正在上升,另一半正在下降!所以你总能找到一种方法离开, “Sejnowski解释说。“你永远不会陷入困境”,至少不是永久性的。

在这种观点中,经典的统计陷阱“过度拟合”数据,这可能导致局部极小,实际上是伪装的祝福。

“事实证明,过度参数化并不是高维空间的罪。实际上,它为你提供了可用于学习的自由度,”Sejnowski说。

Sejnowski说,即使是像线性回归这样简单的东西,它本身并不是机器学习,而只是基本的统计学,它呈现出一种奇怪的新形式,可能是无限规模的渐变。

“事实证明,即使是回归 - 一种基本的东西,一本封闭的书,你如何通过一堆点直线拟合 - 当你处理一个百万维空间时,结果就更有趣了问题;就像你可以用一条直线拟合每一个点,除了一个很小的数字。“

这种梯度正在引领那些研究深度学习的数学家,而这些数学家有朝一日会形成机器学习理论,Sejnowski对此充满信心。

“从空间中的一个地方到另一个地方的方式来说,就这些高维空间的组织方式而言,这就是它们的几何形状。

“所有这些事情都指向了数学上非常丰富的东西。一旦我们理解了它 - 我们开始探索它 - 我们将提出更多,更有效的方式来探索这个空间这些架构。“

对于当前的机器学习研究,有一个直接的含义:更精确的东西不太可取,而不是更多。

“如果你使用更精确的更好的优化技术,它就不会起作用,”他说。

“因此,有一种特殊的优化技术是嘈杂的,你需要进行小批量生产,并且它不是沿着完美的梯度下降,而是沿着一个只是近似下坡的方向下降。”

Sejnowski说,这个领域正在“开始探索”梯度下降的奥秘。“我们有一些有用的东西,我们实际上并不知道它为什么会起作用。

“一旦我们这样做,我们将能够构建一个效率更高的机器。”