令人着迷的无梯度神经网络优化方法

Mr.zhuMr.zhu2025-05-22 19:35:36来源:DeepSeek (www.deepseek.com)阅读:4

 

 

梯度下降是机器学习中最重要的思想之一:给定一些代价函数以使其最小化,该算法迭代地采取最大下降斜率的步骤,理论上在经过足够的迭代次数后才达到最小值。柯西(Cauchy)于1847年首次发现,在1944年针对非线性优化问题在Haskell Curry上得到扩展,梯度下降已用于从线性回归到深度神经网络的各种算法。

虽然梯度下降及其反向传播形式的重新用途已成为机器学习的最大突破之一,但神经网络的优化仍然是一个尚未解决的问题。互联网上的许多人都愿意宣称"梯度下降很烂",尽管可能有些遥远,但梯度下降确实存在许多问题。

 

当然,已经对梯度下降进行了广泛的研究,并且提出了许多建议的解决方案,其中一些解决方案是GD变体,而其他解决方案是基于网络体系结构的。仅仅因为梯度下降被高估了并不意味着它不是当前可用的最佳解决方案。即使使用批处理规范化来平滑错误空间或选择复杂的优化器(如Adam或Adagrad),这些通用知识也不是本文的重点,即使它们通常表现更好。

取而代之的是,本文的目的是向一些晦涩难懂的确定性有趣的优化方法提供一些理所应得的信息,这些方法不适合基于梯度的标准方法,该方法与任何其他用于改善该方法性能的技术一样。神经网络在某些情况下表现特别出色,而在其他情况下则表现不佳。无论他们在特定任务上的表现如何,他们对于机器学习的未来都充满着魅力,创造力和充满希望的研究领域。

专栏深度学习入门系列讲解作者:AI火箭营168币357人已购查看

粒子群优化PSO

粒子群优化是一种基于种群的方法,它 定义了一组探索搜索空间并试图寻找最小值的"粒子"。PSO相对于某个质量指标迭代地改进了候选解决方案。它通过拥有大量潜在的解决方案("粒子")并根据简单的数学规则(例如粒子的位置和速度)移动它们来解决该问题。每个粒子的运动都受到其认为最佳的局部位置的影响,但也被搜索位置(由其他粒子找到)中最知名的位置所吸引。从理论上讲,该群体经过多次迭代以求出最佳解决方案。

资料来源:维基

PSO是一个有趣的想法-与神经网络相比,它对初始化的敏感度要低得多,并且在某些发现上的粒子之间的通信可能被证明是一种搜索稀疏和大面积区域的非常有效的方法。

因为粒子群优化不是基于梯度的(gasp!),所以不需要优化问题是可微的。因此,使用PSO优化神经网络或任何其他算法将对选择其他函数中的激活函数或等效角色具有更大的自由度和更低的敏感性。此外,它几乎没有关于优化问题的假设,甚至可以搜索很大的空间。

可以想象,基于总体的方法比基于梯度的优化器在计算上要昂贵得多,但不一定如此。由于该算法是如此开放和非刚性-正如基于进化的算法通常如此,因此人们可以控制粒子的数量,粒子的移动速度,全局共享的信息量等等。就像可能会调整神经网络中的学习率一样。

代理优化是一种优化方法,它尝试使用另一个完善的函数对损失函数建模以找到最小值。该技术从损失函数中采样"数据点",这意味着它尝试使用不同的参数值(x)并存储损失函数的值(y)。在收集到足够数量的数据点之后,将代理函数(在这种情况下为7次多项式)拟合到所收集的数据。

 

因为找到多项式的最小值是一个经过充分研究的主题,并且存在许多使用导数来找到多项式的全局最小值的非常有效的方法,所以我们可以假定替代函数的全局最小值对于损失是相同的函数。

代理优化从技术上讲是一种非迭代方法,尽管代理功能的训练通常是迭代的。此外,从技术上讲,它是一种无梯度方法,尽管查找建模函数全局最小值的有效数学方法通常基于导数。但是,由于迭代和基于梯度的属性都是替代优化的"次要"属性,因此它可以处理大数据和不可微的优化问题。

使用代理函数的优化在以下几种方面的特性:

替代优化几乎总是比梯度下降方法快,但通常以准确性为代价。使用代理优化可能只能查明全局最小值的大致位置,但这仍然可以极大地受益。

另一种方法是混合模型。替代优化用于将神经网络参数带到粗略位置,从中可以使用梯度下降法找到确切的全局最小值。另一个方法是使用替代模型来指导优化程序的决策,因为替代函数可以a)"先见之明"和b)对损失函数的特定起伏不敏感。

专栏深度学习的高级议题作者:AI火箭营199币13人已购查看

模拟退火

模拟退火是基于冶金退火的概念,其中可以将材料加热到其重结晶温度以上,以降低其硬度并改变其他物理特性,有时还改变化学特性,然后使材料逐渐冷却并再次变硬。

使用缓慢冷却的概念,随着对溶液空间的探索,模拟退火缓慢地降低了接受较差溶液的可能性。由于接受较差的解决方案可以对全局最小值进行更广泛的搜索(认为-越过山丘进入更深的山谷),因此模拟退火假定可以在第一次迭代中正确表示和探索各种可能性。随着时间的流逝,该算法从探索转向开发。

以下是模拟退火算法如何工作的粗略概述:

1. 温度设置为某个初始正值,然后逐渐接近零。

2. 在每个时间步长上,算法都会随机选择一个与当前解决方案接近的解决方案,测量其质量,然后根据当前温度(接受更好或更差的解决方案的可能性)移至该解决方案。

3. 理想情况下,当温度达到零时,该算法已收敛于全局最小解。

可以使用动力学方程式或随机采样方法进行模拟。模拟退火用于解决旅行商问题,该问题试图找到数百个位置之间的最短距离,以数据点表示。显然,这些组合是无止境的,但是模拟退火(加上强化学习的效果)效果很好。

模拟的旅行商问题退火解决方案。资料来源:维基

在需要在短时间内找到近似解的情况下,模拟退火效果特别好,胜过缓慢的梯度下降速度。像代理优化一样,它可以与梯度下降混合使用,从而具有以下优点:模拟退火的速度和梯度下降的准确性。

这是一些非梯度方法的样本;还有许多其他的算法,例如模式搜索和多目标优化,都需要探索。鉴于我们人类遗传成功的证据,因此基于遗传和种群的算法(例如粒子群优化)对于创建真正的"智能"代理非常有前途。

非梯度优化方法之所以令人着迷,是因为它们很多都利用了创造力,而不受梯度数学链的限制。没有人期望无梯度方法能够成为主流,因为即使考虑到许多问题,基于梯度的优化也能如此出色。但是,将无梯度和基于梯度的方法的强大功能与混合优化器一起使用证明了极高的潜力,特别是在我们达到计算极限的时代。

猜你想看

求职面试,什么样的人最受面试官欢迎,二十年招聘经验告诉你
想买二锅头喝,选“红星”还是“牛二”好?来听听行家的心声
越住越旺的房子,都有4个明显特点,你家要都符合就偷着乐吧!
AI行业求职冰火“两重天”,谁在大厂“打螺丝”?
茉莉花茶是属于什么茶?是绿茶?还是红茶?
南京的特色美食小吃有哪些,你觉得哪些更应该上榜?
怎样在城市道路上超车
肌肤外油内干怎么办?这样护肤可以缓解肌肤焦虑
西双版纳过冬租房避坑指南,五大片区的区别在哪里?
首播破亿,口碑两极,《三体》能否帮B站走出“暗黑森林”?
公务员35岁的报考“红线”有放宽,但难消除
百达翡丽,UN雅典表,RM,百万级的腕表都长什么样
女人允许你“随意”做这三件事情,就是在暗示你“越界”
最新手机更换机动车联系方式(2022版)
最适合情侣去的打卡的浪漫城市汇总
适量喝白酒还有这7大好处 但不是贪杯
这些社保服务你需要了解:如何打印参保缴费证明?
腾讯首款自研 Switch 游戏上线:《腾讯扣叮-编程第一课》
适合夫妻牵手旅行的8处风景地,每个都浪漫至极!你们去过几个?
平胸的你还在发愁吗,下面教您如何应对

推荐站点