Coursera Deep Learning専門講座の受講メモ (コース1 - Neural Networks and Deep Learning

この記事のまとめ：

CourseraのDeep Learning専門講座のコース1: Neural Networks and Deep LearningのWeek 3の受講メモとして、要点とよくわからなかったところを補完のために調べたことなどを備忘録としてまとめています。

Week 3の概要

コース1のNeural Networks and Deep Learningコースは次のような4週構成になっており、Week 3は多層ニューラルネットワークに入っていきますが、Week 2が理解できていれば大差ありません。

隠れ層の少ないニューラルネットワーク

Week 2では入力層 (Input Layer)と出力層 (Output Layer)だけで構成されたニューラルネットワークを扱っていましたが、Week 3では間に1層の隠れ層 (Hidden Layer)があるニューラルネットワークを扱います。図で表すと次のおりです。

学習方法の流れはWeek 2で行ったものとほとんど同じです。Week 2の内容が理解できていれば、理解はたやすいです。

順伝搬 (Forward Propagation)

入力層から隠れ層への順伝搬は次の通りです。

$\underbrace{ {\bf{z}}^{[1](i)} }_{n_h \times 1} = \underbrace{ {{\bf{W}}^{[1]}}}_{n_h \times n_x} \cdot \underbrace{ {\bf{x}}^{(i)} }_{n_x \times 1} + \underbrace{ {\bf{b}}^{[1]} }_{n_h \times 1}$ $\underbrace{{\bf{a}}^{[1](i)}}_{n_h \times 1} = g^{[1]} \left( {\bf{z}}^{[1](i)} \right) = \text{tanh} \left( {\bf{z}}^{[1](i)} \right)$

そして、隠れ層から出力層への順伝搬は次のとおりです。

$\underbrace{ z^{[2](i)} }_{1 \times 1} = \underbrace{ {{\bf{w}}^{[2]}}}_{1 \times n_h} \cdot \underbrace{ {\bf{a}}^{[1](i)} }_{n_h \times 1} + \underbrace{ b^{[2]} }_{1 \times 1}$ $\underbrace{ \hat{y}^{(i)} }_{1 \times 1} = a^{[2](i)} = g^{[2]} \left( z^{[2](i)} \right) = \frac{1}{1+e^{-z^{[2](i)}}}$

なお、 $g(\cdot)$ は活性化関数を表しています。1層目では $\text{tanh}$ 関数を使い、2層目ではシグモイド関数を使用しています。その他の活性化関数として、どのようなものがあるかは最後に説明します。

損失関数

損失関数は、次の通り、基本的にはWeek 2と同じです。これはニューラルネットワークとして隠れ層が増えただけで、二項分類問題を解いているため、基本的な考え方は変わりません。

$L (a^{[2]},y) = - \left\{ y \ \text{log} \ a^{[2]} + (1-y) \ \text{log} \ (1-a^{[2]}) \right\}$

コスト関数

コスト関数も、次の通り、基本的には同じです。

$\begin{eqnarray} J( {\bf{W}}^{[1]} , {\bf{b}}^{[1]}, {\bf{w}}^{[2]}, b^{[2]}) &=& - \frac{1}{m} \Sigma_{i=1}^{m} L \left( a^{[2](i)}, y^{(i)} \right) \\ &=& - \frac{1}{m} \Sigma_{i=1}^{m} \left\{ y^{(i)} \left(\text{log} \ a^{[2](i)} \right) + \left( 1-y^{(i)} \right) \text{log} \left(1-a^{[2](i)} \right) \right\} \end{eqnarray}$

逆伝搬

Week 2に比べて隠れ層が増えた分だけパラメーターが増えるため、逆伝搬で算出しなければならないパラメーターが増えます。

2層目

まずは2層目の重み行列 ${\bf{w}}^{[2]}$ 、バイアス $b^{[2]}$ を求めていきます。

下記のようにパラメーターの更新を行っていきます。

${\bf{w}}^{[2]} := {\bf{w}}^{[2]} - \alpha \frac{\partial J({\bf{W}}^{[1]}, {\bf{b}}^{[1]}, {\bf{w}}^{[2]}, b^{[2]})}{\partial {\bf{w}}^{[2]}}$ $b^{[2]} := b^{[2]} - \alpha \frac{\partial J({\bf{W}}^{[1]}, {\bf{b}}^{[1]}, {\bf{w}}^{[2]}, b^{[2]})}{\partial b^{[2]}}$

次にそれぞれの微分項を求めていきますが、行列の微分はわかりにくいので、わかりやすさのために損失関数の微分行列の中身から見ていきます。

$\underbrace{\frac{\partial L}{\partial {{\bf{w}}^{[2]}}}}_{1 \times n_h} = \begin{bmatrix} \frac{\partial L}{\partial w^{[2]}_{1}} && \frac{\partial L}{\partial w^{[2]}_{2}} && \dots && \frac{\partial L}{\partial w^{[2]}_{n_h}} \end{bmatrix}$

これを基に、各要素の微分を求めていきます。まずは、連鎖律を用いると下記のように表すことができます。

$\frac{\partial L}{\partial {w_j}^{[2]}} = \frac{\partial L}{\partial a^{[2]}} \frac{\partial a^{[2]}}{\partial {z}^{[2]}} \frac{\partial z^{[2]}}{\partial {w_j}^{[2]}}$ $\frac{\partial L}{\partial {b}^{[2]}} = \frac{\partial L}{\partial a^{[2]}} \frac{\partial a^{[2]}}{\partial {z}^{[2]}} \frac{\partial z^{[2]}}{\partial {b}^{[2]}}$

各偏微分を解いていきます。

$\frac{\partial L}{\partial a^{[2]}} = \frac{\partial}{\partial a^{[2]}} \left[ - \left\{ y \ \text{log} \ a^{[2]} + \left( 1-y \right) \text{log} \left( 1-a^{[2]}\right) \right\} \right] = - \left( \frac{y}{a^{[2]}} - \frac{1-y}{1-a^{[2]}} \right)$ $\frac{\partial a^{[2]}}{\partial z^{[2]}} = \frac{\partial}{\partial z^{[2]}} \left( \frac{1}{1+e^{-z^{[2]}}} \right) = \left( 1-a^{[2]} \right)$ $\frac{\partial z^{[2]}}{{\partial w^{[2]}_j}} = \frac{\partial}{{\partial w^{[2]}_j}} \left( w^{[2]}_j a^{[1]}_j + b^{[2]}\right) = a^{[1]}_j$ $\frac{\partial z^{[2]}}{{\partial b^{[2]}}} = \frac{\partial}{{\partial b^{[2]}}} \left( w^{[2]}_j a^{[1]}_j + b^{[2]}\right) = 1$

これらを連鎖律に従って掛け合わせていきます。

$\begin{eqnarray} \frac{\partial L}{\partial {w_j}^{[2]}} &=& \frac{\partial L}{\partial a^{[2]}} \frac{\partial a^{[2]}}{\partial {z}^{[2]}} \frac{\partial z^{[2]}}{\partial {w_j}^{[2]}} \\ &=& - \left( \frac{y}{a^{[2]}} - \frac{1-y}{1-a^{[2]}} \right) \left( 1-a^{[2]} \right) a^{[2]} a^{[1]}_j \\ &=& \left( a^{[2]}-y \right) a^{[1]}_j \end{eqnarray}$ $\begin{eqnarray} \frac{\partial L}{\partial {b}^{[2]}} &=& \frac{\partial L}{\partial a^{[2]}} \frac{\partial a^{[2]}}{\partial {z}^{[2]}} \frac{\partial z^{[2]}}{\partial {b}^{[2]}} \\ &=& a^{[2]}-y \end{eqnarray}$

この結果から、損失関数の微分を表す行列に戻ると、次のように表すことができます。

$\begin{eqnarray} \underbrace{\frac{\partial L}{\partial {{\bf{w}}^{[2]}}}}_{1 \times n_h} &=& \begin{bmatrix} \frac{\partial L}{\partial w^{[2]}_{1}} && \frac{\partial L}{\partial w^{[2]}_{2}} && \dots && \frac{\partial L}{\partial w^{[2]}_{n_h}} \end{bmatrix} \\ &=& \begin{bmatrix} (a^{[2]}-y)a^{[1]}_1 && (a^{[2]}-y)a^{[1]}_2 && \dots && (a^{[2]}-y)a^{[1]}_{n_h} \end{bmatrix} \\ &=& (a^{[2]}-y) \begin{bmatrix} a^{[1]}_1 && a^{[1]}_2 && \dots && a^{[1]}_{n_h} \end{bmatrix} \\ &=& (a^{[2]}-y) {\bf{a}^{[1]}}^T \end{eqnarray}$

ここで、コスト関数の微分に戻ります。コスト関数はすべての訓練データに対する損失関数の平均ですので次のようになります。

$\begin{eqnarray} \frac{\partial J}{\partial {\bf{w}}^{[2]}} &=& \frac{\partial J}{\partial L} \frac{\partial L}{\partial {\bf{w}}^{[2]}} \\ &=& \frac{1}{m} \Sigma^{m}_{i=1} \left( a^{[2](i)}-y^{(i)} \right) {{\bf{a}}^{[1](i)}}^T \end{eqnarray}$ $\begin{eqnarray} \frac{\partial J}{\partial {b}^{[2]}} &=& \frac{\partial J}{\partial L} \frac{\partial L}{\partial {b}^{[2]}} \\ &=& \frac{1}{m} \Sigma^{m}_{i=1} \left( a^{[2](i)}-y^{(i)} \right) \end{eqnarray}$

また、 $\frac{\partial J}{\partial {\bf{w}}^{[2]}}$ についてはベクトル化ができますのでベクトル化すると次のように表すことができます。

$\underbrace{ \frac{\partial J}{\partial {\bf{w}}^{[2]}}}_{1 \times n_h} = \frac{1}{m} \underbrace{\left( A^{[2]} - Y \right)}_{1 \times m} \cdot \underbrace{{A^{[1]}}^T}_{m \times n_h}$

これで一通り2層目の逆伝搬の計算が終わりました。

1層目

次に1層目の重み行列 ${\bf{W}}^{[1]}$ とバイアス ${\bf{b}}^{[1]}$ についても同じように解いていきます。

それぞれのパラメーターの更新は下記の通りです。

${\bf{W}}^{[1]} := {\bf{W}}^{[1]} - \alpha \frac{\partial J({\bf{W}}^{[1]}, {\bf{b}}^{[1]}, {\bf{w}}^{[2]}, b^{[2]})}{\partial {\bf{W}}^{[2]}}$ ${\bf{b}}^{[1]} := {\bf{b}}^{[1]} - \alpha \frac{\partial J({\bf{W}}^{[1]}, {\bf{b}}^{[1]}, {\bf{w}}^{[2]}, b^{[2]})}{\partial {\bf{b}}^{[1]}}$

上式の微分項を解いていきます。まず簡単化のために、2層目の時と同様に損失関数の行列の中身を見ていきます。

$\underbrace{\frac{\partial L}{\partial {{\bf{W}}^{[1]}}}}_{n_h \times n_x} = \begin{bmatrix} \frac{\partial L}{\partial w^{[1]}_{1,1}} && \frac{\partial L}{\partial w^{[1]}_{1,2}} && \dots && \frac{\partial L}{\partial w^{[1]}_{1,n_x}} \\ \frac{\partial L}{\partial w^{[1]}_{2,1}} && \frac{\partial L}{\partial w^{[1]}_{2,2}} && \dots && \frac{\partial L}{\partial w^{[1]}_{2,n_x}} \\ \vdots && \vdots && \ddots && \vdots \\ \frac{\partial L}{\partial w^{[1]}_{n_h,1}} && \frac{\partial L}{\partial w^{[1]}_{n_h,2}} && \dots && \frac{\partial L}{\partial w^{[1]}_{n_h,n_x}} \\ \end{bmatrix}$ $\underbrace{\frac{\partial L}{\partial {{\bf{b}}^{[1]}}}}_{n_h \times 1} = \begin{bmatrix} \frac{\partial L}{\partial b^{[1]}_{1}} \\ \frac{\partial L}{\partial b^{[1]}_{2}} \\ \vdots \\ \frac{\partial L}{\partial b^{[1]}_{n_h}} \\ \end{bmatrix}$

各要素の微分を求めていきます。連鎖律を用いると下記のように表すことができます。

$\frac{\partial L}{\partial {w_{j,k}}^{[1]}} = \frac{\partial L}{\partial a^{[2]}} \frac{\partial a^{[2]}}{\partial {z}^{[2]}} \frac{\partial z^{[2]}}{\partial {a_j}^{[1]}} \frac{\partial a_j^{[1]}}{\partial {z_j}^{[1]}} \frac{\partial z_j^{[1]}}{\partial {w_{j,k}}^{[1]}}$ $\frac{\partial L}{\partial {b_{j}}^{[1]}} = \frac{\partial L}{\partial a^{[2]}} \frac{\partial a^{[2]}}{\partial {z}^{[2]}} \frac{\partial z^{[2]}}{\partial {a_j}^{[1]}} \frac{\partial a_j^{[1]}}{\partial {z_j}^{[1]}} \frac{\partial z_j^{[1]}}{\partial {b_{j}}^{[1]}}$

$\frac{\partial L}{\partial a^{[2]}}$ と $\frac{\partial a^{[2]}}{\partial {z}^{[2]}}$ は、すでに求めましたので残りを求めていきます。

$\frac{\partial z^{[2]}}{\partial {a_j}^{[1]}} = \frac{\partial}{\partial {a_j}^{[1]}} \left( w_j^{[2]} a_j^{[1]} + b^{[2]} \right) = w_j^{[2]}$ $\frac{\partial a_j^{[1]}}{\partial {z_j}^{[1]}} = \frac{\partial}{\partial {z_j}^{[1]}} \text{tanh} \ z_j^{[1]} = 1 - {a_j^{[1]}}^2$ $\frac{\partial z_j^{[1]}}{\partial {w_{j,k}}^{[1]}} = \frac{\partial}{\partial {w_{j,k}}^{[1]}} \left( w_{j,k}^{[1]} x_j + b_j^{[1]} \right) = x_j$ $\frac{\partial z_j^{[1]}}{\partial {b_{j}}^{[1]}} = \frac{\partial}{\partial {b_{j}}^{[1]}} \left( w_{j,k}^{[1]} x_j + b_j^{[1]} \right) = 1$

これですべての要素が求まりましたので、かけ合わせていきます。

$\begin{eqnarray} \frac{\partial L}{\partial {w_{j,k}}^{[1]}} &=& \frac{\partial L}{\partial a^{[2]}} \frac{\partial a^{[2]}}{\partial {z}^{[2]}} \frac{\partial z^{[2]}}{\partial {a_j}^{[1]}} \frac{\partial a_j^{[1]}}{\partial {z_j}^{[1]}} \frac{\partial z_j^{[1]}}{\partial {w_{j,k}}^{[1]}} \\ &=& (a^{[2]}-y) w_j^{[2]} \left( 1-{a_j^{[1]}}^2 \right) x_j \end{eqnarray}$ $\begin{eqnarray} \frac{\partial L}{\partial {b_{j}}^{[1]}} &=& \frac{\partial L}{\partial a^{[2]}} \frac{\partial a^{[2]}}{\partial {z}^{[2]}} \frac{\partial z^{[2]}}{\partial {a_j}^{[1]}} \frac{\partial a_j^{[1]}}{\partial {z_j}^{[1]}} \frac{\partial z_j^{[1]}}{\partial {b_{j}}^{[1]}} \\ &=& (a^{[2]}-y) w_j^{[2]} \left( 1-{a_j^{[1]}}^2 \right) \end{eqnarray}$

この結果から、損失関数の微分を表す行列に戻ると、次のように表すことができます。

$\begin{eqnarray} \underbrace{\frac{\partial L}{\partial {{\bf{W}}^{[1]}}}}_{n_h \times n_x} &=& \begin{bmatrix} \frac{\partial L}{\partial w^{[1]}_{1,1}} && \frac{\partial L}{\partial w^{[1]}_{1,2}} && \dots && \frac{\partial L}{\partial w^{[1]}_{1,n_x}} \\ \frac{\partial L}{\partial w^{[1]}_{2,1}} && \frac{\partial L}{\partial w^{[1]}_{2,2}} && \dots && \frac{\partial L}{\partial w^{[1]}_{2,n_x}} \\ \vdots && \vdots && \ddots && \vdots \\ \frac{\partial L}{\partial w^{[1]}_{n_h,1}} && \frac{\partial L}{\partial w^{[1]}_{n_h,2}} && \dots && \frac{\partial L}{\partial w^{[1]}_{n_h,n_x}} \\ \end{bmatrix} \\ &=& \begin{bmatrix} (a^{[2]}-y) w_1^{[2]} \left( 1-{a_1^{[1]}}^2 \right) x_1 && \dots && (a^{[2]}-y) w_1^{[2]} \left( 1-{a_1^{[1]}}^2 \right) x_1 \\ (a^{[2]}-y) w_2^{[2]} \left( 1-{a_2^{[1]}}^2 \right) x_2 && \dots && (a^{[2]}-y) w_2^{[2]} \left( 1-{a_2^{[1]}}^2 \right) x_2 \\ \vdots && && \vdots \\ (a^{[2]}-y) w_j^{[2]} \left( 1-{a_j^{[1]}}^2 \right) x_j && \dots && (a^{[2]}-y) w_j^{[2]} \left( 1-{a_j^{[1]}}^2 \right) x_j \\ \end{bmatrix} \\ &=& \left( a^{[2]}-y \right) \left\{ {\bf{w^{[2]}}} \circ \left( {\bf{1}}-{{\bf{a}}^{[1]}}^{\circ 2} \right) \cdot {\bf{x}}^T \right\} \end{eqnarray}$ $\begin{eqnarray} \underbrace{\frac{\partial L}{\partial {{\bf{b}}^{[1]}}}}_{n_h \times 1} &=& \begin{bmatrix} \frac{\partial L}{\partial b^{[1]}_{1}} \\ \frac{\partial L}{\partial b^{[1]}_{2}} \\ \vdots \\ \frac{\partial L}{\partial b^{[1]}_{n_h}} \\ \end{bmatrix} \\ &=& \begin{bmatrix} (a^{[2]}-y) w_1^{[2]} \left( 1-{a_1^{[1]}}^2 \right) \\ (a^{[2]}-y) w_2^{[2]} \left( 1-{a_2^{[1]}}^2 \right) \\ \vdots \\ (a^{[2]}-y) w_j^{[2]} \left( 1-{a_j^{[1]}}^2 \right) \\ \end{bmatrix} \\ &=& \left( a^{[2]}-y \right) \left\{ {\bf{w^{[2]}}} \circ \left( {\bf{1}}-{{\bf{a}}^{[1]}}^{\circ 2} \right) \right\} \end{eqnarray}$

なお、" $\circ$ " は要素ごとの積、またはアダマール積　(Element-wise multiplication/ Hadamard multiplication)であり、" $A^{\circ2}$ " は要素ごとの累乗、またはアダマールパワー　(Element-wise power/ Hadamard power)を表しています。

ここでコスト関数の微分に戻ります。コスト関数はすべての訓練データに対する損失関数の平均ですので1層目では次のようになります。

$\frac{\partial J}{\partial {{\bf{W}}^{[1]}}} = \frac{1}{m} \Sigma^{m}_{i=1} \left( a^{[2](i)} - y^{(i)} \right) \left\{ {\bf{w}}^{[2]} \circ \left( {\bf{1}} - {{\bf{a}}^{[1](i)}}^{\circ 2} \right) \right\} {{\bf{x}}^{(i)}}^T$

また、2層目と同様に $\frac{\partial J}{\partial {\bf{W}}^{[1]}}$ についてはベクトル化ができますのでベクトル化すると次のように表すことができます。

$\underbrace{ \frac{\partial J}{\partial {\bf{W}}^{[1]}}}_{n_x \times n_h} = \frac{1}{m} \left[ \{ \underbrace{ {{\bf{w}}^{[2]}}^T}_{n_h \times 1} \cdot \underbrace{ ( {\bf{a}}^{[2]} - {\bf{y}} ) }_{1 \times m} \} \circ \underbrace{( {\bf{1}} - {{\bf{A}}^{[1]}})}_{n_h \times m} \right] \cdot \underbrace{\bf{{X}}^T}_{m \times n_x}$

若干の表記は異なりますが、これでWeek 3の内容と同じ中身になっているはずです。

活性化関数 (Activate Function)

前回のロジスティック回帰においては活性化関数は出力層のみ必要となりましたが、多層ニューラルネットワークにおいては、各層で活性化関数を通過します。

活性化関数として代表的な関数を次節で説明します。基本的にどれがいいというのはあまりなく、アプリケーションによって最適なものをテストしたほうがよいようです。

また、活性化関数は必ず非線形関数を用います。線形関数を用いた場合、隠れ層が計算で解けるため、隠れ層がないニューラルネットワークと等価になってしまいます。

なお、Week 3では隠れ層の活性化関数として、tanh関数を出力層の活性化関数として、シグモイド関数 (Sigmoid Function)を使用します。

シグモイド関数

シグモイド関数はロジスティクス回帰の出力層に用いられます。ロジスティクス回帰のように二項分類問題を扱う場合は、 $y \in {0,1}$ であるからして、 $0 \le \hat{y} \le 1$ であることが直感的に望ましいです。逆に言うとそれ以外でシグモイド関数を使うことはほぼありません。

$g(z)=\frac{1}{1+e^{-z}}$ $g'(z)=\{1-g(z)\}g(z)$

双曲線 (tanh) 関数

双曲線関数は隠れ層などに使います。シグモイド関数を $-1 \le g(z) \le 1$ の範囲にシフトしたバージョンといえます。

$g(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}}$ $g'(z)=1-\{g(z)\}^2$

ReLU (Rectified Linear Unit)関数

シグモイド関数や双曲線関数は、 $|z|$ が大きい場合には $g(z)$ の値が変わらず、学習が遅いという欠点がありました。そのため、最近ではReLU関数がよく使われます。また、計算が簡単で処理が早いというのも特徴です。

$g(z)=\text{max}(0,z)$ $g'(z)=\begin{cases} 0 \ \text{if} \ z<0\\ 1 \ \text{otherwise} \end{cases}$

Leaky ReLU関数

$z$ が負数の場合にも学習をさせたい場合に、ReLUに代わってLeaky ReLU関数が使われることがあります。

$g(z)=\text{max}(\alpha z,z)$

$\alpha$ は、 $0.01$ のような数値を入れるケースが多いようです。

$\alpha \lt\lt 0$ $g'(z)=\begin{cases} \alpha \ \text{if} \ z<0\\ 1 \ \text{otherwise} \end{cases}$
今回は以上です。最後まで読んでいただき、ありがとうございます。

CourseraのDeep Learning専門講座の他のコースの受講メモ

コース1: Neural Networks and Deep Learning
コース2: Improving Deep Neural networks
コース3: Structuring Machine Learning Projects
- Week 1: 機械学習において開発戦略を立てるための基本的な知識
- Week 2: 分析手法とマルチタスク学習、転移学習
コース4: Convolutional Neural Network
コース5: Sequence Models

Search This Blog