Coursera Deep Learning専門講座の受講メモ (コース5 - Sequence Models

この記事のまとめ：

CourseraのDeep Learning専門講座のコース5: Sequence ModelsのWeek 1の受講メモとして、要点とよくわからなかったところを補完のために調べたことなどを備忘録としてまとめています。
Week 1ではシーケンスモデルの基本的な入出力表現やネットワーク構成について学びます。

コース5：Sequence Modelsについて

このコースでは、再帰型ニューラルネットワーク（Recurrent Neural Networks）の基本的なネットワーク構成と、応用例として自然言語処理におけるWord Embeddingや感情分類、機械翻訳、音声認識について学びます。

3週間の内容は次の通りです。

Week 1の概要

このコースのWeek 1では、次のことについて学びます。

シーケンスモデルの基本的な入出力表現
シーケンスモデルを扱うニューラルネットワークであるRNNの種類
基本的なRNNの数式表現
RNNにおける勾配損失問題に対処としてのGRUとLSTM
Bidirectional RNNとDeep RNNの概要

シーケンスモデルの適用例

シーケンスモデルは入力データとして時系列データを扱い、応用例として、スピーチ認識、音楽生成、感情分析、DNA分析、機械翻訳、ビデオ行動認識、キーワード抽出などがあります。

文章認識の入出力表現

シーケンスモデルの入出力表現として、固有名詞抽出を例に見ていきます。

入力 $\bf{x}$ は単語ごとにわけ、それぞれ時系列のインデックスを添え字として山括弧を使って表現します。値については単語辞書のインデックスに対応したOne-hotベクトルで表現します。また、出力 $\bf{y}$ においては、固有名詞であれば $1$ 、そうでなければ $0$ というように表現します。

	Harry	Potter	and	Hermione	Granger	invented	a	new	spell.
$\bf{x}$	$x^{\langle1\rangle}$	$x^{\langle2\rangle}$	$x^{\langle3\rangle}$	$x^{\langle4\rangle}$	$x^{\langle5\rangle}$	$x^{\langle6\rangle}$	$x^{\langle7\rangle}$	$x^{\langle8\rangle}$	$x^{\langle9\rangle}$
$\bf{y}$	$\underbrace{1}_{y^{\langle1\rangle}}$	$\underbrace{1}_{y^{\langle2\rangle}}$	$\underbrace{0}_{y^{\langle3\rangle}}$	$\underbrace{1}_{y^{\langle4\rangle}}$	$\underbrace{1}_{y^{\langle5\rangle}}$	$\underbrace{0}_{y^{\langle6\rangle}}$	$\underbrace{0}_{y^{\langle7\rangle}}$	$\underbrace{0}_{y^{\langle8\rangle}}$	$\underbrace{0}_{y^{\langle9\rangle}}$

$x^{\langle1\rangle} = \begin{matrix} \begin{bmatrix} 0 \\ 0 \\ \vdots \\ 0 \\ 1 \\ 0 \\ \vdots \\ 0 \end{bmatrix} & \begin{matrix} \\ \\ \\ \\ \leftarrow \text{Corresponding to "Harry" in a dictionary} \\ \\ \\ \\ \end{matrix} \end{matrix}$

なお、ここでインデックス変数として $t$ を用い、 $T_x, T_y$ を入出力の最後のインデックスを示します。

これまで学んできた標準的なニューラルネットワークでこの問題を扱えない理由として次のような課題があります。

インプットとアウトプットが例ごとに異なる長さになる可能性がある
異なる位置で出てきた特徴に対して適用できない

こういった理由でシーケンスモデルのニューラルネットワークを扱います。

再帰型ニューラルネットワーク (Recurrent Neural Networks: RNN)

シーケンスモデルを扱うニューラルネットワークとして再帰型ニューラルネットワークがあります。再帰型ニューラルネットワークの基本的な表現についてみていきます。

順伝播

再帰型ニューラルネットワークでの各隠れ層は、時刻 $t$ における入力 $x^{\langle t \rangle}$ と時刻 $t-1$ の隠れ層の活性化関数 $a^{\langle t-1 \rangle}$ を入力として、出力 $\hat{y}^{\langle t \rangle}$ を得る構成となっています。その時に用いる重みが時刻ごとに異なる重みを使うわけでなく、すべての時刻において同じ重みを使います。

式で表すと次のようになります。

$a^{\langle t \rangle} = g_1(W_{aa} a^{\langle t-1 \rangle} + W_{ax} x^{\langle t \rangle} + b_a )$ $\hat{y}^{\langle t \rangle} = g_2 (W_{ya} a^{\langle t \rangle} + b_y)$

$W_{aa}$ 、 $W_{ax}$ 、 $b_a$ 、 $W_{ya}$ 、 $b_y$ はそれぞれパラメーターで、 $g_1(\cdot)$ 、 $g_2(\cdot)$ は隠れ層間と出力用の活性化関数です。RNNでは $g_1(\cdot)$ にはtanh関数が使われることが多いです。 $g_2(\cdot)$ には二項分類にはシグモイド関数、他分類にはソフトマックス関数などが使われます。

計算の単純化のために、上記 $a^{\langle t \rangle}$ の式は次のようにまとめることができます。

$a^{\langle t \rangle} = g_1(W_{a} [a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_a )$

このとき、 $W_a$ と $[a^{\langle t-1 \rangle}, x^{\langle t \rangle}]$ は次の通りです。

$W_a = \left[ \begin{array}{ccc} W_{aa} & W_{ax} \end{array} \right]$ $[a^{\langle t-1 \rangle}, x^{\langle t \rangle}] = \left[ \begin{array}{c} a^{\langle t-1 \rangle} \\ x^{\langle t \rangle} \end{array} \right]$

このように、ネットワーク状態が再帰的な構造となっており、過去の状態に依存する点がこれまで行ってきたニューラルネットワークとは異なります。

逆伝播

RNNの逆伝播の標準的な方法であるBPTT (Backpropagation through time)法を見ていきます。BPTT法は、簡単に言うと時刻 $1$ から $T_x$ まで一つ一つ展開していくとこれまで行ってきた逆伝播の方法がそのまま適用できるというものです。

まずは損失関数を定義します。出力は各時刻それぞれにありますので二項分類を例にすると次にようになります。

$\mathcal{L}(\hat{y}^{\langle t \rangle}, y^{\langle t \rangle}) = \sum^{T_y}_{t=1} \mathcal{L}^{\langle t \rangle} (\hat{y}^{\langle t \rangle}, y^{\langle t \rangle})$ $\mathcal{L}^{\langle t \rangle}(\hat{y}^{\langle t \rangle}, y^{\langle t \rangle}) = -y^{\langle t \rangle} \log \hat{y}^{\langle t \rangle} - (1-y^{\langle t \rangle}) \log (1-\hat{y}^{\langle t \rangle}) \\$

あとは、各パラメーターにおける損失関数の勾配を求めるために、損失関数を各パラメーターで微分します。

$\frac{\partial \mathcal{L}}{\partial W_{ya}} = \sum_{t=1}^T \frac{\partial \mathcal{L}^{\langle t \rangle}}{\partial \hat{y}^{\langle t \rangle}} \frac{\partial \hat{y}^{\langle t \rangle}}{\partial W_{ya}}$ $\frac{\partial \mathcal{L}}{\partial W_{aa}} = \sum_{t=1}^T \frac{\partial \mathcal{L}^{\langle t \rangle}}{\partial \hat{y}^{\langle t \rangle}} \frac{\partial \hat{y}^{\langle t \rangle}}{\partial a^{\langle t \rangle}} \frac{\partial a^{\langle t \rangle}}{\partial W_{aa}}$ $\frac{\partial \mathcal{L}}{\partial W_{ax}} = \sum_{t=1}^T \frac{\partial \mathcal{L}^{\langle t \rangle}}{\partial \hat{y}^{\langle t \rangle}} \frac{\partial \hat{y}^{\langle t \rangle}}{\partial a^{\langle t \rangle}} \frac{\partial a^{\langle t \rangle}}{\partial W_{ax}}$

ここで、BPTT法と従来のニューラルネットワークの逆伝播と異なる点は、 $a^{\langle t \rangle}$ が $a^{\langle t-1 \rangle}$ を含んでいることです。つまり、 $a^{\langle t \rangle}$ を微分する際、次のようになります。

$\begin{eqnarray} \frac{\partial a^{\langle t \rangle}}{\partial W_{ax}} &=& \frac{\partial a^{\langle t \rangle}}{\partial W_{ax}} + \frac{\partial a^{\langle t \rangle}}{\partial a^{\langle t-1 \rangle}} \frac{\partial a^{\langle t-1 \rangle}}{\partial W_{ax}} \\ &=& \sum_{k=1}^{t} \left( \prod_{j=k+1}^{t} \frac{\partial a^{\langle j \rangle}}{\partial a^{\langle j-1 \rangle}} \right) \frac{\partial a^{\langle k \rangle}}{\partial W_{ax}} \end{eqnarray}$

あとは従来通りに逆伝播の計算をすればよいです。

このように勾配には過去のすべての情報が含まれるという点が従来のニューラルネットワークの逆伝播と異なるということを理解しておく必要があります。

RNNの入出力の種類

これまで、入出力の長さが同じRNNを見てきましたが、RNNにはさまざまなタイプの入出力があります。

One to many

Many to one

Many to many

Many to many

RNNを使用した言語モデルの基本

言語モデルとは、自然言語処理において最も基本的で重要なタスクの一つで、Wikipediaでは次のように説明されています。

言語モデルとは，単語列に対する確率分布である．長さmの単語列が与えられたとき，単語列全体に対しての確率 $P(w_{1},\ldots ,w_{m})$ を与える．言語モデルを用いると異なるフレーズに対して相対的な尤度を求めることができるため，自然言語処理の分野で広く使われている．言語モデルは音声認識，機械翻訳，品詞推定，構文解析，手書き文字認識，情報検索などに利用されている．

ここではRNNを用いて言語モデルを構築します。まずは、対象とする言語の大量のコーパスが必要になります。また、確率を求めるために、辞書もあらかじめ用意しておく必要があります。辞書の中には文章の終わりを示す"<EOS>"(End of Sentence)と、辞書に含まれていない単語を示す"<UNK>"(Unknown)を含める必要があります。

次のようなRNNにおいて文章を訓練することで言語モデルを作ることができます。

RNNは次で表す式に基づいて訓練しますが、ソフトマックス関数は $t-1$ までの文章を与えられたときに、辞書の中の単語からそれぞれの確率を予測することを意味します。

$\hat{y}^{\langle t \rangle} = \text{softmax }(W_{aa} a^{\langle t-1 \rangle} + W_{ax} x^{\langle t \rangle} + b_a )$ $\mathcal{L}^{\langle t \rangle}(\hat{y}^{\langle t \rangle}, y^{\langle t \rangle}) = - \sum_i y_i^{\langle t \rangle} \log \hat{y}_i^{\langle t \rangle}$ $\mathcal{L}=\sum_t \mathcal{L}^{\langle t \rangle}(\hat{y}^{\langle t \rangle}, y^{\langle t \rangle})$

なお、言語モデルとして文字レベルの言語モデルも作ることはできますが、次のようなPro/Conがあります。

Pro	Con
unknownの文字が来ても対応できる	訓練するには計算コストが大きすぎる

Sampling novel sequences

学習済みの言語モデルを用いて新しい文章を作ることができます。

ランダムに1語目を選び、以後は前の $\hat{y}^{\langle t-1 \rangle}$ を入力として、RNNが導く分布からランダムに言葉を抽出し、出力 $\hat{y}^{\langle t \rangle}$ していくと、文章を生成してくれます。

RNNにおける勾配損失問題

ディープニューラルネットワークでは浅い層の情報を深い層に影響を与えることは難しいです。これは以前にも触れた勾配損失問題によるものです。

その対策として、GRUやLSTMがあります。

Gated Recurrent Unit (GRU)

GRUでは隠れ層の中に過去の状態を覚えておくためのパラメーターとして memory cell $c$ があります。また、 $c$ を更新するかどうかのゲートである update gate $\Gamma_u$ があり、この値は常に1か0に近い値を示すように働きます。この二つの働きによって過去の状態を出力に反映させるかどうかの働きをします。最後に $c^{\langle t \rangle}$ の次の候補を計算するのに $c^{\langle t-1 \rangle}$ がどれほど関連性があるかを示す relevance gate $\Gamma_r$ があります。

上図では単純化のためにrelevance gateは省略しています。

式で表すと次のようになります。

$\begin{eqnarray} \tilde{c}^{\langle t \rangle} &=&\text{tanh} (W_c [\Gamma_r \circ c^{\langle t-1 \rangle}, x^{\langle t \rangle}]) + b_c) \\ \Gamma_u &=& \sigma(W_u [c^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_u) \\ \Gamma_r &=& \sigma(W_r [c^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_r) \\ c^{\langle t \rangle} &=& \Gamma_u \circ \tilde{c}^{\langle t \rangle} + (1-\Gamma_u) \circ c^{\langle t-1 \rangle} \\ a^{\langle t \rangle} &=& c^{\langle t \rangle} \end{eqnarray}$

$c$ : memory cell
$\Gamma_u$ : update gate
$\Gamma_r$ : relevance gate

なお、 $\circ$ はアダマール積 (要素ごとの積) を示しており、 $c, \tilde{c}, \Gamma$ はすべて同じ次元です。

GRUはこの後紹介するLSTMをシンプルにしたモデルで、LSTMに比べると後発のモデルです。GRUは隠れ層の構造が2つのゲート構造でシンプルなので、より大きなモデルを学習したいときにはゲートが3つあるLSTMに比べると有利に働く場合があります。

Long Short Term Memory (LSTM)

LSTMはGRUに比べるとゲートの数が多く、すべてのパラメーターについてゲートがあります。また、LSTMではmemory cellを活性化関数と分けて個別に保持します。これによってLSTMはGRUに比べると過去の状態を保持しやすいです。

$\begin{eqnarray} \tilde{c}^{\langle t \rangle} &=& \text{tanh} (W_c [a^{\langle t-1 \rangle}, x^{\langle t \rangle}]) + b_c) \\ \Gamma_u &=& \sigma(W_u [a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_u) \\ \Gamma_f &=& \sigma(W_f [a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_f) \\ \Gamma_o &=& \sigma(W_o [a^{\langle t-1 \rangle}, x^{\langle t \rangle}] + b_o) \\ c^{\langle t \rangle} &=& \Gamma_u \circ \tilde{c}^{\langle t \rangle} + \Gamma_f \circ c^{\langle t-1 \rangle} \\ a^{\langle t \rangle} &=& \Gamma_o \circ \text{tanh} (c^{\langle t \rangle}) \end{eqnarray}$

$\Gamma_u$ : update gate
$\Gamma_f$ : forget gate
$\Gamma_o$ : output gate

より深くLSTMを理解したい方は下記のブログが参考になります。

Understanding LSTM Networks

Bidirectional RNN (BRNN)

これまで見てきたRNNは一方向の時間遷移に対してしか状態を渡しませんでしたが、BRNNでは両方向の時間遷移に対して情報を引き渡します。

各ブロックは、LSTMブロックでも、GRUブロックでもその他のRNNブロックでもよいです。自然言語処理においては、LSTMを使ったBRNNがよく使われます。

もちろん入力としてすべての時刻の時系列データを必要とするため、音声認識システムなどで使う場合には、すべての時系列データの入力が終わるまで待たなければなりません。

Deep RNN (DRNN)

一般的なディープニューラルネットワークは50層や100層などの深さが一般的ですが、RNNの場合は3層でも十分大きいニューラルネットワークといえます。これは、RNNには時系列の次元があるためです。

DRNNの後に時系列の結合がないディープニューラルネットワークを使う場合もあります。

今回は以上です。最後まで読んでいただき、ありがとうございます。

CourseraのDeep Learning専門講座の他のコースの受講メモ

コース1: Neural Networks and Deep Learning
コース2: Improving Deep Neural networks
コース3: Structuring Machine Learning Projectsについて
- Week 1: 機械学習において開発戦略を立てるための基本的な知識
- Week 2: 分析手法とマルチタスク学習、転移学習
コース4: Convolutional Neural Network
コース5: Sequence Models

Search This Blog