優化

經驗談

对于稀疏数据，尽量使用学习率可自适应的优化方法，不用手动调节，而且最好采用默认值
SGD通常训练时间更长，但是在好的初始化和学习率调度方案的情况下，结果更可靠
- Adam在testing時error較大。有一說是可能都是找到sharp minimum
- Adam某些情況下無法收斂
如果在意更快的收敛，并且需要训练较深较复杂的网络时，推荐使用学习率自适应的优化方法。
Adadelta，RMSprop，Adam是比较相近的算法，在相似的情况下表现差不多。
在想使用带动量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果

開始

一階導數
- 普通梯度下降法
  - 無法利用曲率資訊，不知道應該選擇曲率<0
- Jocobian矩陣
二階導數：損失函數的曲率、損失函數斜率的斜率、損失函數斜率變化的程度。可以看出現在是越來越陡（曲率<0，損失函數斜率越來越-）還是越來越不陡。
- 可以被用於確定現在是否是局部最小值（往四面八方都是小上坡）or鞍點（某個橫截面是局部最大，但某個橫截面是局部最小值）
  - f'(x)=0代表到了臨界值
  - 這時如果f''(x)>0代表往右f'(x)會增加往左會減少 ⇒ 局部最小值
  - 如果f''(x)<0 ⇒ 局部最大值
  - f''(x)=0 ⇒ 鞍點or平坦地區，不確定。
  - 多維情況需檢視所有二階函數 ⇒ 使用Hessian
- Hessian矩陣
  - 多維情況對Hessian特徵值分解後的特徵值來判斷
  - 如果是Hessian是正定的（所有特徵值都是正的）⇒ 局部最小值（周圍所有方向的二階導數都>0）
  - Hessian是負定的 ⇒ 局部最大值
  - Hessian特徵值至少一正一負 ⇒ 在某個方向的橫截面是局部最大值，在某個方向是局部最小值 ⇒ 鞍點
  - 所有非零特征值是同号的且至少有一个特征值是 0 时 ⇒ 这个检测就是不确定的。
- 牛頓法
  - 計算量太大 $f:R^n\rightarrow R$ 的Hessian矩陣大小為nxn，有可能會到上億個參數甚至不能表示
  - 解決方法：使用 Krylov 方法
    - 只需要能够计算 Hessian 矩阵 H 和一个任意向量 v 间的乘积即可。实现这一目标的一种直观方法$Hv = \Delta_x[((\Delta_xf(x))^{\top}v)]$

深度學習優化問題

優化方法只在凸優化時表現很好
- 凸優化：限制較多，要求是凸函數、Hessian處處半正定，代表沒有鞍點且局部最小值即為全局最小值。
深度學習大多都難以表達成凸優化的形式。
- 只能使用約束優化（KKT方法）：加上約束條件轉化為凸優化問題

實例

Raw SGD
- 最大的缺点是下降速度慢，而且可能会在沟壑的两边持续震荡，停留在一个局部最优点。
  - 不知道如何選擇學習率：太小收斂太慢，太大又會來回震盪
  - 相同學習率不適合用在所有參數上，尤其是稀疏數據，不應該將其更新到相同的程度，應針對少更新的參數有較大的學習率
  - 鞍點問題：通常被相同誤差值的平面所包圍，這使得SGD算法很難脫離出來，因為梯度在所有維度上接近於零。
1. Batch GD
  - 每次更新的計算開銷為O(n)
  - 每個epoch用全部資料更新一次
2. SGD
  - 每個更新的計算開銷為O(1)
  - 每個epoch更新N次, N=資料數量
  - 更新次數比BGD多很多, 所以可以減少epoch
  - 過程比較不穩定, 有機會突破局部最佳, 但比起其他革新還是非常容易困在局部
3. mini-batch SGD
  - 每次更新的計算開銷為O(B)
  - 介於兩者
  - 当批量较小时，每次迭代中使用的样本少，这会导致并行处理和内存使用效率变低。这使得在计算同样数目样本的情况下比使用更大批量时所花时间更多
  https://colab.research.google.com/drive/15LQ7s2g-1FfcIDeNinOLZdbHS3WcBj4E
加入一階動量（慣性）來調整損失函數收斂方向
1. SGDM, SGD with Momentum
  - 加入一階動量, 即各時刻梯度方向的類指數移動平均
  - 約等於最近一些時刻內梯度向量和的平均值
  - for歷史梯度的參數 $\beta_1$ 通常是0.9，代表主要會跟著歷史的方向走
    - 加入慣性的概念來加快下降速度，即遇到陡坡就跑快點。
    - 過去往某個方向移動很多，那就順著那個方向走多一點。
    - 加強更新有關方向、弱化無關方向的震盪
  - 當前梯度指向實際移動方向（歷史）時，動量項γ增大；當梯度與實際移動方向相反時，γ減小。
    - 動量項只對相關樣本進行參數更新，減少了不必要的參數更新，從而得到更快且穩定的收斂，也減少了振蕩過程。
2. NAG, SGD with Nesterov
  - 跟著累積動量再多走一步，再從走到的地方計算該處梯度進行校正、更新
    - 相當於順著歷史多走一步去看看有沒有其他下坡的方向，才不會被卡在局部
  - 預更新方法能防止大幅振蕩，不會錯過最小值，並對參數更新更加敏感。
加入二階動量來調整學習率
- 自適應學習率
- 較頻繁更新的參數更新幅度小一點（到後來針對該參數已經累積很多經驗與知識，所以不希望再更新時被某個單一樣本影響太大）
- 分母會有一項 $\epsilon$ epsilon ，通常是1e-8，避免分母變成0
1. Adagrad
  - 學習率多加一個分母，為歷史梯度的平方和（但是是向量形式，所以對每一個參數會有客製化的學習率變化）
  - 頻繁更新的參數（多出好幾個梯度）平方和一定會比較大，所以作用於學習率後會較小
  - 對稀疏數據的表現非常好
  - 問題
    - 作用於學習率的分母只會越來越大，可能在還沒完成收斂以前就已經把學習率縮小到近似於0了，造成太早停止學習的狀況。
    - 學習能力會迅速降低，造成收斂速度緩慢，需要很長的時間訓練，學習速度慢。
2. Adadelta/RMSProp
  - 為解決Adagrad提早停止更新的問題，把分母改成移動平均，即最近一些時刻內梯度的平方和平均，就不會分母一直變大
  - RMSProp是Adadelta的一個特例
    - 把分母梯度平方求移動平均的係數設為0.5再求平方根（RMS）
3. Adam
  - Adaptive + momentum
  - $\beta_1, \beta_2$ 是 momentum, 二階動量的參數
  - $\beta_1, \beta_2,\epsilon$ 通常是0.9, 0.999, 1e-8
4. NAdam

優化

經驗談

開始

深度學習優化問題

實例

正則化