Coursera Deep Learning専門講座の受講メモ (コース2 - Improving Deep Neural Networks

この記事のまとめ：

CourseraのDeep Learning専門講座のコース2: Improving Deep Neural NetworksのWeek 2の受講メモとして、要点とよくわからなかったところを補完のために調べたことをまとめています。

コース2：Improving Deep Neural Networksについて

これまでに受講したコース1のNeural Networks and Deep Learningに続き、コース2ではImproving Deep Neural Networksと題して、主に次の内容を3週に渡って学びます。

Week 2の概要

この講座のWeek 2では、Deep Neural Networkを行うときに、大量の学習データを細切れに処理する方法であるミニバッチ処理について学びます。

ミニバッチ勾配降下法 (Mini-batch gradient descent)

Deep Neural Networkを使う際、ハイパーパラメーターの調整などトライ＆エラーをせざるえないのが現状ですが、学習データセットが500万個など大量にある場合、1回の試行の結果を得るために時間がかかる過ぎてしまいます。そこで考えられた方法がミニバッチ処理で、学習データを分割して比較的少ない学習データで試行を回す方法がよく使われます。

64 ( $=2^6$ )から512 ( $=2^9$ )の範囲がよくつかわれるようですが、CPU/GPUのメモリサイズに応じて設計します。

なお、ミニバッチ処理に対して、学習データセットを分割しない場合にはバッチ処理といいます。また、ミニバッチ処理において、すべての学習データについてをエポック (epoch)ともいいます。

ただし、ミニバッチ処理を行うことで生じる課題があります。扱うデータ数が少なくなってしまうため、コスト関数の平均と分散がミニバッチ間で変動しやすくなるという課題です。つまり、ミニバッチごとの重み更新量（傾き $dW$ ）が過剰に変動するということが生じます。それらに対して対応する方法を紹介します。

モメンタムを使った勾配降下法 (Gradient descent with momentum)

平均を安定化させるために、モメンタム（勢い）を考慮して、傾き $dW (=\frac{\partial J}{\partial W})$ を指数移動平均を使って平均化します。つまり、重みの更新式を次のように変更します。

$W := W - \alpha V_{dW}$ $V_{dW} := \beta_1 V_{dW} + (1-\beta_1) dW$

なお、 $\beta_1$ はハイパーパラメーターであり、 $0 \le \beta_1 \le 1$ の値を取ります。

上記は傾き $dW$ についてですが、バイアス $db$ についても同様に計算します。

RMSprop (Root Mean Square Propagation)

同様に分散を平均化するための手法としてRMSpropがあります。先ほどと同様に傾き $dW$ の分散を指数移動平均を使って平均化します。

$W := W - \alpha \frac{dW}{\sqrt{S_{dW}}}$ $S_{dW} := \beta_2 S_{dW} + (1-\beta_2) dW^{\circ 2}$

" $A^{\circ 2}$ " は要素ごとの累乗、またはアダマールパワー (Element-wise power/ Hadamard power) を表しています。

なお、 $\beta_1$ はハイパーパラメーターであり、 $0 \le \beta_1 \le 1$ の値を取ります。

上記は傾き $dW$ についてですが、バイアス $db$ についても同様に計算します。

バイアス補正 (Bias correction)

指数移動平均を行う際、初期の試行においては初期値に大きく作用してしまいます。これを補正する手法がバイアス補正です。

モメンタムの場合を例に取り上げると次のように $V_{dW}$ を更新します。

$V_{dW}^{corrected} = \frac{V_{dW}}{1-\beta_1^t}$

$t$ はミニバッチ処理の試行回数です。 $t$ が小さいときのみこの補正が大きく作用し、 $V_{dW}$ を増幅してくれます。

この $V_{dW}^{corrected}$ を用いて、 $W$ を次のように更新します。

$W := W - \alpha V_{dW}^{corrected}$

Adam最適化アルゴリズム (Adaptive momentum estimation optimization algorithm)

Adam最適化アルゴリズムは、モメンタムとRMSpropを両方採用したアルゴリズムです。

初期化

$V_{dW} := 0, S_{dW} := 0$

モメンタム

$V_{dW} := \beta_1 V_{dW} + (1-\beta_1) dW$

RMSprop

$S_{dW} := \beta_2 S_{dW} + (1-\beta_2) dW^{\circ 2}$

バイアス補正

$V_{dW}^{corrected} = \frac{V_{dW}}{1-\beta_1^t}$ $S_{dW}^{corrected} = \frac{S_{dW}}{1-\beta_2^t}$

重み更新

$W := W - \alpha \frac{V_{dW}^{corrected}}{\sqrt{S_{dW}^{corrected}+\epsilon}}$

$\epsilon$ はゼロ割をしないための定数で $10^{-8}$ 等非常に小さい値を使います。

同様に、バイアス $b$ についても行います。

学習率減衰 (Learning rate decay)

学習初期は学習率を大きくして更新ステップを大きくすることで最適解を荒く探し、学習終盤では学習率を小さくして更新ステップを小さくすることで最適解に微細に間違いなく近づけるということも最適化手法の一つです。

このやり方としてはいくつかありますので、いくつか試して使い分ければよいでしょう。

定割合減衰

$\alpha = \frac{1}{1+\text{decay-rate} * \text{epoch-num}} \alpha_0$

指数減衰

$\alpha = k^{\text{epoch-num}} \alpha_0$ $\alpha = \frac{k}{\sqrt{\text{epoch-num}}} \alpha_0$

階段状減衰
手動減衰

今回は以上です。最後まで読んでいただき、ありがとうございます。

コース1: Neural Networks and Deep Learning
コース2: Improving Deep Neural networks
コース3: Structuring Machine Learning Projects
- Week 1: 機械学習において開発戦略を立てるための基本的な知識
- Week 2: 分析手法とマルチタスク学習、転移学習
コース4: Convolutional Neural Network
コース5: Sequence Models

Search This Blog