首先,理解梯度向量是指向函数值增长最快的方向的:MIT18.02笔记-梯度的定义与理解
定义函数
最速下降算法:在迭代过程,每次都选择负梯度方向搜索(对于寻找最小值的最优化问题)
最速下降算法步骤:
- 初始化
,设定允许的最小误差 ,迭代次数 - 对于第
次迭
分类目录归档:迭代优化算法
首先,理解梯度向量是指向函数值增长最快的方向的:MIT18.02笔记-梯度的定义与理解
定义函数
最速下降算法:在迭代过程,每次都选择负梯度方向搜索(对于寻找最小值的最优化问题)
最速下降算法步骤:
贝叶斯优化是一种通用的黑盒优化算法,不需要计算梯度便可快速解决最优化问题,贝叶斯优化适合处理目标函数计算成本高或求导困难的情况。贝叶斯优化最常用的场景是超参搜索(尤其是神经网络类算法,计算成本高,超参数还多)
贝叶斯优化(Bayesian Optimization,BO)
目的是要找到一组最优的超参组合x,能使评价/目标函数f(x)达到全局最优
由于评价/目标函数f(x)计算成
在最优化问题的求解过程中常利用到函数梯度及其高阶信息
牛顿法(Newton's method)又称为牛顿-拉弗森方法(Newton-Raphson method)
牛顿法借助泰勒级数的低阶展开,寻找方程
牛顿法计算步骤:
期望最大化(Expectation-Maximum,简称EM)算法是一种机器学习常见基础算法
EM算法常用于处理存在隐变量的最大似然估计模型,训练过程简单描述如下:
以K-means聚类为例进行直观理解:
EM算法作为一种基础算法,广泛应用于多种算法模型的学习过程,比如:隐马尔可夫模型 HMM
这类算法思想在其他模型中也经常遇见,比
大部分机器学习模型的构建都是寻找最小损失函数的过程,而梯度下降法(Gradient Descent)便是一种常见迭代优化算法,用于寻找损失最小的参数解。
以简单二次函数为例进行算法的简单说明,模型形式
坐标下降法(英语:coordinate descent)是一种非梯度优化算法。算法在每次迭代中,在当前点处沿一个坐标方向进行一维搜索以求得一个函数的局部极小值。在整个过程中循环使用不同的坐标方向。对于不可拆分的函数而言,算法可能无法在较小的迭代步数中求得最优解。
为了加速收敛,可以采用一个适当的坐标系,例如通过主成分分析获得一个坐标间尽可能不相互关联的新坐标系,即自适应坐标下降法。