Coursera Deep Learning専門講座の受講メモ (コース1 - Neural Networks and Deep Learning

この記事のまとめ：

CourseraのDeep Learning専門講座のコース1: Neural Networks and Deep LearningのWeek 4の受講メモとして、要点とよくわからなかったところを補完のために調べたことなどを備忘録としてまとめています。

Week 4の概要

コース1のNeural Networks and Deep Learningコースは次のような4週構成になっており、Week 3は隠れ層が1層のニューラルネットワークを扱いましたが、Week 4はニューラルネットワークを一般化して任意の隠れ層の数を扱います。Week 3が理解できていれば大差ありません。

なお、狭義には4層以上のニューラルネットワークを深層ニューラルネットワークというそうです。

隠れ層の多いニューラルネットワーク

Week 3では間に1層の隠れ層 (Hidden Layer)があるニューラルネットワークを扱いましたが、Week 4では任意の数の隠れ層を扱います。図で表すと次のおりです。

出力層 (Output layer)を含めて $L$ 層の多層ニューラルネットワークについて、 $l$ 層目のニューロンの数を $n_l$ として学習を行います。学習方法の流れはWeek 3で行ったものとほとんど同じですが、各層での処理を一般化することで、各層の処理を一つ一つ記述せず、forループの処理で記述できるようにします。Week 3の内容が理解できていれば、理解はたやすいです。

順伝搬 (Forward Propagation)

順伝搬においては、各層では次の処理を行います。

入力:
- $(l-1)$ 層からの順伝搬: ${\bf{A}}^{[l-1]}$
出力
- $(l+1)$ 層への順伝搬: ${\bf{A}}^{[l]}$
- $l$ 層の逆伝搬へのキャッシュ: ${\bf{Z}}^{[l]}$

上記出力用の順伝搬は計算は次の通りに表せます。

$\begin{equation} \underbrace{ {\bf{Z}}^{[l]} }_{n_l \times m} = \underbrace{ {{\bf{W}}^{[l]}}}_{n_l \times n_{l-1}} \cdot \underbrace{ {\bf{A}}^{[l-1]} }_{n_{l-1} \times m} + \underbrace{ {\bf{b}}^{[l]} }_{n_l \times 1} \end{equation}$ $\underbrace{{\bf{A}}^{[l]}}_{n_l \times m} = g^{[l]} \left( {\bf{Z}}^{[l]} \right)$

なお、入力層の訓練データ $x$ と出力層の出力 $\hat{y}$ は、一般化するために次のようにしております。

$X = A^{[0]}$ $\hat{Y} = A^{[L]}$

また、 $g^{[l]}(\cdot)$ は $l$ 層目の活性化関数を表しており、各層で任意の活性化関数を選択します。

上式の通り、順伝搬では $(l-1)$ 層から ${\bf{A}}^{[l-1]}$ を受け取り、 $(l+1)$ 層に ${\bf{A}}^{[l]}$ を渡します。また、逆伝搬の処理を減らすために ${\bf{Z}}^{[l]}$ をキャッシュしておきます。

逆伝搬 (2Bbackward Propagation)

逆伝搬においては、各層では次の処理を行います。

入力:
- $(l+1)$ 層からの逆伝搬: $\frac{\partial \bf{L}}{\partial \bf{A}^{[l]}}$
- $l$ 層の順伝搬からのキャッシュ: $\bf{Z}^{[l]}$
処理:
- 重みの傾き: $\frac{\partial \bf{L}}{\partial \bf{W}^{[l]}}$
- バイアスの傾き: $\frac{\partial \bf{L}}{\partial \bf{b}^{[l]}}$
出力
- $(l-1)$ 層への逆伝搬: $\frac{\partial \bf{L}}{\partial \bf{A}^{[l-1]}}$

逆伝搬における各層の処理は一般化すると次のように表すことができます。

$\frac{\partial L}{\partial \bf{W}^{[l]}} = \underbrace {\frac{\partial L}{\partial \bf{A}^{[L]}} \frac{\partial \bf{A}^{[L]}}{\partial \bf{Z}^{[L]}} \frac{\partial \bf{Z}^{[L]}}{\partial \bf{A}^{[L-1]}} ... \frac{\partial \bf{A}^{[l+1]}}{\partial \bf{Z}^{[l+1]}} \frac{\partial \bf{Z}^{[l+1]}}{\partial \bf{A}^{[l]}}}_{\text{from the layer } (l+1)} \frac{\partial \bf{A}^{[l]}}{\partial \bf{Z}^{[l]}} \frac{\partial \bf{Z}^{[l]}}{\partial \bf{W}^{[l]}}$ $\frac{\partial L}{\partial \bf{b}^{[l]}} = \underbrace {\frac{\partial L}{\partial \bf{A}^{[L]}} \frac{\partial \bf{A}^{[L]}}{\partial \bf{Z}^{[L]}} \frac{\partial \bf{Z}^{[L]}}{\partial \bf{A}^{[L-1]}} ... \frac{\partial \bf{A}^{[l+1]}}{\partial \bf{Z}^{[l+1]}} \frac{\partial \bf{Z}^{[l+1]}}{\partial \bf{A}^{[l]}}}_{\text{from the layer }(l+1)} \frac{\partial \bf{A}^{[l]}}{\partial \bf{Z}^{[l]}} \frac{\partial \bf{Z}^{[l]}}{\partial \bf{b}^{[l]}}$ $\frac{\partial L}{\partial \bf{A}^{[l-1]}} = \underbrace {\frac{\partial L}{\partial \bf{A}^{[L]}} \frac{\partial \bf{A}^{[L]}}{\partial \bf{Z}^{[L]}} \frac{\partial \bf{Z}^{[L]}}{\partial \bf{A}^{[L-1]}} ... \frac{\partial \bf{A}^{[l+1]}}{\partial \bf{Z}^{[l+1]}} \frac{\partial \bf{Z}^{[l+1]}}{\partial \bf{A}^{[l]}}}_{\text{from the layer }(l+1)} \frac{\partial \bf{A}^{[l]}}{\partial \bf{Z}^{[l]}} \frac{\partial \bf{Z}^{[l]}}{\partial \bf{A}^{[l-1]}}$

Week 4の要点はこの手順を理解することです。この流れでWeek 3で行ったのと同様の手順ですべての隠れ層の重み、バイアスを更新すれば隠れ層が多くなっても特別なことを考える必要がありません。

今回は以上です。最後まで読んでいただき、ありがとうございます。

CourseraのDeep Learning専門講座の他のコースの受講メモ

コース1: Neural Networks and Deep Learning
コース2: Improving Deep Neural networks
コース3: Structuring Machine Learning Projects
- Week 1: 機械学習において開発戦略を立てるための基本的な知識
- Week 2: 分析手法とマルチタスク学習、転移学習
コース4: Convolutional Neural Network
コース5: Sequence Models

Search This Blog