令人着迷的无梯度神经网络优化方法

Mr.zhuMr.zhu2025-05-22 19:35:36来源:优站库 (www.uzkoo.com)阅读:8

 

 

梯度下降是机器学习中最重要的思想之一:给定一些代价函数以使其最小化,该算法迭代地采取最大下降斜率的步骤,理论上在经过足够的迭代次数后才达到最小值。柯西(Cauchy)于1847年首次发现,在1944年针对非线性优化问题在Haskell Curry上得到扩展,梯度下降已用于从线性回归到深度神经网络的各种算法。

虽然梯度下降及其反向传播形式的重新用途已成为机器学习的最大突破之一,但神经网络的优化仍然是一个尚未解决的问题。互联网上的许多人都愿意宣称"梯度下降很烂",尽管可能有些遥远,但梯度下降确实存在许多问题。

 

当然,已经对梯度下降进行了广泛的研究,并且提出了许多建议的解决方案,其中一些解决方案是GD变体,而其他解决方案是基于网络体系结构的。仅仅因为梯度下降被高估了并不意味着它不是当前可用的最佳解决方案。即使使用批处理规范化来平滑错误空间或选择复杂的优化器(如Adam或Adagrad),这些通用知识也不是本文的重点,即使它们通常表现更好。

取而代之的是,本文的目的是向一些晦涩难懂的确定性有趣的优化方法提供一些理所应得的信息,这些方法不适合基于梯度的标准方法,该方法与任何其他用于改善该方法性能的技术一样。神经网络在某些情况下表现特别出色,而在其他情况下则表现不佳。无论他们在特定任务上的表现如何,他们对于机器学习的未来都充满着魅力,创造力和充满希望的研究领域。

专栏深度学习入门系列讲解作者:AI火箭营168币357人已购查看

粒子群优化PSO

粒子群优化是一种基于种群的方法,它 定义了一组探索搜索空间并试图寻找最小值的"粒子"。PSO相对于某个质量指标迭代地改进了候选解决方案。它通过拥有大量潜在的解决方案("粒子")并根据简单的数学规则(例如粒子的位置和速度)移动它们来解决该问题。每个粒子的运动都受到其认为最佳的局部位置的影响,但也被搜索位置(由其他粒子找到)中最知名的位置所吸引。从理论上讲,该群体经过多次迭代以求出最佳解决方案。

资料来源:维基

PSO是一个有趣的想法-与神经网络相比,它对初始化的敏感度要低得多,并且在某些发现上的粒子之间的通信可能被证明是一种搜索稀疏和大面积区域的非常有效的方法。

因为粒子群优化不是基于梯度的(gasp!),所以不需要优化问题是可微的。因此,使用PSO优化神经网络或任何其他算法将对选择其他函数中的激活函数或等效角色具有更大的自由度和更低的敏感性。此外,它几乎没有关于优化问题的假设,甚至可以搜索很大的空间。

可以想象,基于总体的方法比基于梯度的优化器在计算上要昂贵得多,但不一定如此。由于该算法是如此开放和非刚性-正如基于进化的算法通常如此,因此人们可以控制粒子的数量,粒子的移动速度,全局共享的信息量等等。就像可能会调整神经网络中的学习率一样。

代理优化是一种优化方法,它尝试使用另一个完善的函数对损失函数建模以找到最小值。该技术从损失函数中采样"数据点",这意味着它尝试使用不同的参数值(x)并存储损失函数的值(y)。在收集到足够数量的数据点之后,将代理函数(在这种情况下为7次多项式)拟合到所收集的数据。

 

因为找到多项式的最小值是一个经过充分研究的主题,并且存在许多使用导数来找到多项式的全局最小值的非常有效的方法,所以我们可以假定替代函数的全局最小值对于损失是相同的函数。

代理优化从技术上讲是一种非迭代方法,尽管代理功能的训练通常是迭代的。此外,从技术上讲,它是一种无梯度方法,尽管查找建模函数全局最小值的有效数学方法通常基于导数。但是,由于迭代和基于梯度的属性都是替代优化的"次要"属性,因此它可以处理大数据和不可微的优化问题。

使用代理函数的优化在以下几种方面的特性:

替代优化几乎总是比梯度下降方法快,但通常以准确性为代价。使用代理优化可能只能查明全局最小值的大致位置,但这仍然可以极大地受益。

另一种方法是混合模型。替代优化用于将神经网络参数带到粗略位置,从中可以使用梯度下降法找到确切的全局最小值。另一个方法是使用替代模型来指导优化程序的决策,因为替代函数可以a)"先见之明"和b)对损失函数的特定起伏不敏感。

专栏深度学习的高级议题作者:AI火箭营199币13人已购查看

模拟退火

模拟退火是基于冶金退火的概念,其中可以将材料加热到其重结晶温度以上,以降低其硬度并改变其他物理特性,有时还改变化学特性,然后使材料逐渐冷却并再次变硬。

使用缓慢冷却的概念,随着对溶液空间的探索,模拟退火缓慢地降低了接受较差溶液的可能性。由于接受较差的解决方案可以对全局最小值进行更广泛的搜索(认为-越过山丘进入更深的山谷),因此模拟退火假定可以在第一次迭代中正确表示和探索各种可能性。随着时间的流逝,该算法从探索转向开发。

以下是模拟退火算法如何工作的粗略概述:

1. 温度设置为某个初始正值,然后逐渐接近零。

2. 在每个时间步长上,算法都会随机选择一个与当前解决方案接近的解决方案,测量其质量,然后根据当前温度(接受更好或更差的解决方案的可能性)移至该解决方案。

3. 理想情况下,当温度达到零时,该算法已收敛于全局最小解。

可以使用动力学方程式或随机采样方法进行模拟。模拟退火用于解决旅行商问题,该问题试图找到数百个位置之间的最短距离,以数据点表示。显然,这些组合是无止境的,但是模拟退火(加上强化学习的效果)效果很好。

模拟的旅行商问题退火解决方案。资料来源:维基

在需要在短时间内找到近似解的情况下,模拟退火效果特别好,胜过缓慢的梯度下降速度。像代理优化一样,它可以与梯度下降混合使用,从而具有以下优点:模拟退火的速度和梯度下降的准确性。

这是一些非梯度方法的样本;还有许多其他的算法,例如模式搜索和多目标优化,都需要探索。鉴于我们人类遗传成功的证据,因此基于遗传和种群的算法(例如粒子群优化)对于创建真正的"智能"代理非常有前途。

非梯度优化方法之所以令人着迷,是因为它们很多都利用了创造力,而不受梯度数学链的限制。没有人期望无梯度方法能够成为主流,因为即使考虑到许多问题,基于梯度的优化也能如此出色。但是,将无梯度和基于梯度的方法的强大功能与混合优化器一起使用证明了极高的潜力,特别是在我们达到计算极限的时代。

猜你想看

【科学的温度】体育中考调整耐力项目,青少年“阳康”后如何锻炼?
瘦子如何科学增肌?4种方法打造肌肉身材
太热了!别再披头散发了,这4款发型够美够清凉
轮胎总是出现异响,竟是它在作怪?老司机告诉你怎么办
什么情况下可以使用电子医保卡?
王者荣耀:掌握这五点技巧,菜鸟也能轻松上王者
很多人的疑问:星球为何能漂浮在太空中?
开学一个多月后儿童精神科爆满?如何识别心理问题让孩子远离抑郁
电饭煲和电压力锅有什么区别?电饭煲怎么选?电饭煲哪个牌子好?
五一将至,有哪些风景秀丽的地方可玩?
车辆经过就闪的摄像头,会被拍吗,是不是违章看仔细
酒店床尾放的一块横布,到底有什么用?床头为何还要放四个枕头?
到底有哪些防身工具是合法的?
2021年新婚姻法将改变你的哪些财产
比芯片自主更迫切 车用操作系统难在哪里?
什么是央企?什么是国企?央企和国企有什么区别?
细说中国八大名酒
北京企业退休人员养老金计算方式,不明白的朋友看过来!
头道茶真的很脏吗?要倒掉吗?老茶客:了解3个原则,轻松喝好茶
如何申领、使用电子检验合格标志 电子与纸质凭证是否具有同等效力~

推荐站点