Acitivate function

sigmoid
- 將值映射到0-1
- 問題：
  - 太容易飽和(saturate): 稍微往左右求導就趨近於0
  - gradient vanishing: 導數範圍:0~0.25, 當層數變多時就會出現梯度消失的問題
    - 往回傳播個幾層時太早就變很小, 所以最前面的layer很難更新, 然後後面的雖然更新很大, 但是還是從前面學習過來, 所以沒有用
tanh
- 將值映射到-1~1
- center到0, 所以比sigmoid收斂更快
  - 未證實：想像sigmoid輸出都是正數, 所以在參數更新的時候通常所有參數都是同一個方向, 只能所有參數一起鋸齒狀更新zigzag, 所以比較慢
- 比sigmoid有稍微更大的導數範圍(0~1)
- 只是稍微緩解sigmoid的問題
ReLU(rectified linear unit) vs sigmoid vs tanh
- ReLU適用於cnn模型
- 解決gradient vanishing, 導數為0 or 1, 不會有消失問題
- ReLU可以降低overfit：讓某些神經元輸出為0, 等於關閉某些神經元, 變成稀疏神經網路
  - 缺點：關閉後難以再開啟（因為會被關閉就是因為前面對應的神經元計算後在此產生<0的值(bias太負), 但關閉後代表不會backprob回去不會更新, 下次計算到此神經元還是<0, 還是關閉）
  - 解決：LReLU PReLU CReLU ELU SELU
softmax
- 是泛化的sigmoid
  - sigmoid針對兩項之總機率=1
  - softmax針對多項之總機率=1
- 如果要multi-label, 則要用sigmoid預測每個class是/否的機率, 不可用softmax, 因為softmax

Loss Function

regression

MSE * MSE = Mean(SSE) in 統計 * 若用於logistic regresseion時
- sigmoid輸出值接近0 or 1時, 因微分後的公式, 梯度會接近0, 更新會太慢 * RMSE用於跟MAE同range比較, outlier大時會大MAE很多
MAE * 微分會有問題： $\ f(x) = |x|$ 則 $f'(x) = \frac{x}{|x|} $
1. 在x=0處不連續
2. 微分/梯度始終相同(方向可能不同)
- 對outlier or pred差較遠者懲罰少學習慢
- pred較近者又太大(可能會在底部跳來跳去

其實outlier在真實資料中佔很少, 所以對於outlier對於DL的影響其實不大?, 兩者使用差異反而主要在L1, L2 norm

classification

multi-class vs multi-label * multi-class: 很多class但最終預測只有一個class(1,0,0), eg.動物分類器, MNIST數字分類器 * mulyi-label: 很多class,最終預測多個class(1,1,0), eg. 電影分類(可能同時是科幻, 劇情, 動作)
classification loss * only right or wrong * 0.1, 0.9 vs 0.4, 0.6 的loss都是一樣的, 但很明顯後者需要改變 * cant backprob?
0/1 loss * $loss_i = 0$ only when $y_{i,true} = y_{i,pred}$, 太嚴格 * not convex, 難以優化
perceptron loss * 0/1 loss 的改進版 * $loss_i = 0$ when * 有另一版本是hinge loss的變種? $|y_{i,true}-y_{i,pred}|>t,\ t$為thread value
cross entropy * information gain
- 公式： $\ I(x) = -log(p_i)$
- 越確定的訊息量越低 $p = 100%$ * entropy
- 公式： $\ H(X) = \sum_{i=0}^{N}-p_ilog(p_i)$
- 測量不確定性
- 越不確定越隨機($p = 50\%$), entropy越高 * 公式（有些人有除以N）： $\ L(X)=H(X) = \sum_{i=1}^{N}\sum_{c=1}^{C}-y_{true,i,c}log(p_{i,c})$
- 二分類問題： $y_{true,i}= 0\ or\ 1\ for\ label_1\ or\ label_2\ \\y_{pred,i,1},y_{pred,i,2}=(p_1, p_2),\ 其中p_1+p_2=1\ \\L(X)=\sum_{i=1}^{N}ylog(a)+(1-y)log(1-a),\ 其中 \\y=y_{true,i}\ and\ a=y_{pred,i,1}\ and\ (1-a)=y_{pred,i,2}$
  - 即為Binary CE, 也可運用在多分類/multi-label問題(每個樣本i對每個類別c作一次BCE)https://clay-atlas.com/blog/2019/12/18/machine-learning-chinese-pytorch-tutorial-binary-cross-entroy-loss/
  - 通常用BCE + Sigmoid
- **多分類問題：***可以簡化, 因為 multi-classification 中y_true向量為OHE, 其中只會有一個類別=1, 其餘=0
  - log loss 即為簡化後之結果： $\ H(X) = \sum_{i=1}^{N}-log(p_{i})$
    - 通常用於logistic regression * 應用
- categorical vs sparse CE
  - 其實loss func都一樣, pred也都是prob vector, 差別在label的格式不一樣:OHE or int-encoded
  - categorical CE is for OHE Label, eg. [1, 0, 0], [0, 0, 1]
  - sparese CE is for int label, eg. [1], [3], [2]
    - 其實只是運算過程簡化, 直接取出label對應的pred vector element
    - when you have many classes (and samples), in which case a one-hot encoding can be significantly more wasteful than a simple integer
    - integer encoding is more compact than one-hot encoding and thus more suitable for encoding sparse binary data.
    - only suitable for "sparse labels", where original vector has exactly one value is 1 and all others are 0
- sigmoid vs softmax
  - sigmoid is for 二元分類, softmax 則是泛化於多分類multi-classification
  - why sigmoid+BCE 用於二分類：$y_{pred,i,1} = \frac{e^{-\betaX}}{1+e^{-\betaX}}\ \ (1)\y_{pred,i,2} = \frac{1}{1+e^{-\beta*X}}\ \ (2)\y_{pred,i,1}+y_{pred,i,2} = 1\ \ (1)+(2)$
  - 承上, 可推 softmax+CE 用於多分類
- multi-label
  - 要用BCE而不是Categorical CE, 因為後者只計算唯一個標籤值為1的狀況
  - 也可用Sigmoid activation + normal CE
hinge loss * 公式： $loss_i = max(0, 1-y_{true,i}y_{pred,i}),其中\y_{true,i}=-1\ or\ 1$ * 並不鼓勵分類器太過自信:让某个正确分类的样本距离分割线超过1并不会有任何奖励，从而使分类器可以更专注于整体的误差。$if\ y_{true,i}, y_{pred,i} = 1, 100\=>\ max(0, 1-1100)\ is\ still\ 0$ * 用於二分類, SVM, 間隔最大化問題