ディープラーニング (Deep Learning:CNN )

はじめに

Deep Learning(ディープラーニング）という言葉は、もはや殆どの人が耳にしたことがあると思います。ディープラーニングは何かを調べていくと、今いち何か掴めないという人が多いのではないでしょうか？今回はディープラーニングの１種であるCNN( Convolution Neural Networks)を中心に画像処理を例としてディープラーニングとはなにか、どう学習させていくかを説明いたします。

前段は特徴量作成ステージ。学習により畳み込みフィルターが作られる。後段はClassification。普通のNNとなる。Fully connectedであり、最後にはSOFTMAX関数を用いる。

Deep learningの正体

ディープラーニングはDeep Neural networks(DNN)とも呼ばれており、その正体はニューラルネットワーク（NN）そのものです。ディープラーニングという言葉が流行り始めた際、中身がニューラルネットワークという事を知って、本当に驚きました。というのも、NNはとても古く伝統ある学習アルゴリズムでしたが、ランダムフォレストやSVMの台頭により、誰も利用しない、古い学習アルゴリズムとして扱われていたからです。厳密にはNNとDNNの違いは、特徴量の作成を学習化にとりいれた事でした。今まで画像処理の分野では技術者は頑張って特徴量を作り、その特徴量をNNなどの学習機で学習させていましたが、DNNでは、画像を突っ込めば前段で特徴量を勝手に作ってくれます。（厳密には特徴量を作成するフィルターを作成する。そのフィルターをかませることで特徴量マップを作成する）これは、とても斬新でした。

Forward process

さて、ディープラーニングの一種であるCNNを例にどのようなに学習しているかを説明します。CNNがわかると、DNNの構造がわかり、例えば最近の技術であるDCGANの理解も進みます。

CNNはFowardプロセスとして前段と後段の２つに分けることができます。まずは前段の畳込みとプーリングについて説明します。

前段（畳込みとプーリング）

１．畳み込み処理

３ｘ３の場合は、上記のように畳み込み処理を行う。畳み込み処理をして出てきた値に対して、 ReLU( max( 0, x ) ) を実施している例が多い。フィルターのサイズについては、経験的に決める。

CNNでやっていることは実は単純です。CNNでは、入力画像にフィルターによる畳込み演算をし、それを特徴量マップとして次の層に渡します。この特徴マップづくりが特徴量を自動でつくる、と言われている部分でもあります。CNNは多層であるということを言いましたが、次の層でも、同様に畳込み演算を実施して、更に特徴量マップを作成します。そして次の層へ…ということを繰り返し実施するのです。何層にするかは自分で決めればいいのですが、大体２層くらいで落ち着かせる事が多くあります。

CNNの肝は特徴量マップ作りですが、これは言い換えればフィルター（畳み込みの重み）を学習により自動で求めることにあります。繰り返しフィルターの重みをを更新していく処理により精度を高めていきます。フィルターの更新にはバックプロパゲーション（誤差伝播）により更新していくのですが、こちらは後述します。

なお、畳込み処理ではReLU処理をする場合がほとんどです。ReLUとはmax( 0, x )というただのMAX処理で、畳こみ値がマイナスであれば０にする操作となります。

2.プーリング処理

Min poolingの例。画素の一番低いピクセル（黒に近いもの）を選択する。Max Poolingであれば白に一番近いものが選ばれれる。Poolingにより特徴マップの次元は削減される。Max Pooling, Min Poolingの他にAverage Pooling等がある。

CNNではPoolingという作業（間引き）を行っています。Poolingは特徴量をマップを作った直後（あるいはReLU処理後）に実施します。

最も使われるPooling操作は畳み込み演算後の特徴マップから、ウィンドウの中で最大値だけをとるMaxPoolingです。Poolingを行う最大の目的は次元の削減にあります。またPooling操作は必須ではありません。事実、DCGANなど最近のDNNの一種では行っていません。ただ、伝統的な？CNNでは利用されています。また、至るところでも解説されているので覚えておくといいでしょう。

前段における注意事項

Note 1：入力画像がカラー画像の場合

入力画像がカラー画像のとき、つまりR,G,Bチャンネルが３つあるときですが、フィルターが３次元となります。例えばウィンドウサイズが３ｘ３であれば、RGBを含め３ｘ３ｘ３のフィルターを用意します。このフィルターを適用して、特徴量マップの１つの要素ができます。

Note 2:何枚の特徴量マップを作ればいいのか

各層において、何枚の特徴量マップを作ればいいのかは、自由に決めます。６４，１２８など、霧のいい数字を用いることが多いです。

NOTE 3: 何層作ればいいのか

２層の例が圧倒的に多いですが、こちらも経験的に決めているようです。

後段処理（Classification)

後段処理では、伝統的なニューラルネットワークを行います。例えば、最後に１４ｘ１４の特徴量MAPが３つできたとします（１４ｘ１４ｘ３）。これを１次元にすると５８８次元です（Flattering処理）。これを用いて、普段のNNで使われるテクニックを使い、指定のクラスの次元まで落とし込むのです。SOFTMAXがよく使われています。この方法については、従来のNNそのものであるので割愛します。

Backward process

誤差伝搬はどのようにやるのでしょうか。後段処理についてはNNで今までと変わりません。前段の誤差伝搬処理について解説していきます。

誤差伝搬を行いますが、今までとの逆の操作をしていくことになります。前段処理は次のような流れでした。

画像 –> 特徴量マップ –> ReLU –> MaxPooling

本当は数回特徴量作成とPoolingをやりますが、ここでは簡単に一層で作成したと仮定し説明します。さて、逆操作では以下になります。

d Max Pooling –> d ReLU–>d Convolution(特徴マップ逆操作 )

d Max Pooling

Forward processでのMax Poolingは最大値だけを抽出し、次元を縮小する操作でした。Backward Processでは、次元縮小に利用したフィルターを用いて、後段から来た誤差をもとの大きさにもどしてやります。

Backword processでは、このMAX Filterを使うので、前段で作ったMAX Filterは保持しておくことが必要です。

d ReLU

この操作を図示すると次のとおりです。単純に０より上であれば１にする操作となります。

d Convolution

特徴量MAPの作成に利用したフィルターを使い、復元していきます。

はみ出した領域は、０でパディングしておく（つまり、はみ出した部分の重みは考慮しない）

１８０度転置したものが伝搬で使われるのかについてはForward And Backpropagation in Convolutional Neural Network[1]に詳しく述べられていますので、参照ください。参考サイトは英語ですが、わかりやすい数式で述べられているので、興味ある人は読めるはずです。

参考文献

[1] medium.com/@2017csm1006/forward-and-backpropagation-in-convolutional-neural-network-4dfa96d7b37e

https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural-networks-the-eli5-way-3bd2b1164a53

投稿者: 等々力康弘

画像処理エンジニア。組み込みソフト出身。株式会社モルフォにてR&D部門、主に機械学習業務に携わり、顔認識＆顔検出のアルゴリズム開発に従事。国内特許数件、国際特許１件。モルフォ社退社後、株式会社Dynaptico創業（CEO)。アメリカ人、スウェーデン人と３名とフードデリバリーサイトmaishoku.comを立ち上げる。社長業の他、開発業務においてバックグラウンド関連全般(Djangoを用いいたバックエンドサーバ＆APIサーバーの作成、リバースプロキシなどの負荷分散サーバ関連、OCRプログラムの作成、CISCOルータの管理, 、seleniumを用いたテストサーバーの構築、Androidアプリの開発等々）に携わる。 2019年DynapticoのCEOを辞職。 2020年2月にComputer Scienceに特化した株式会社OctOpt創業。 OSはUbuntu。Appleが苦手。Swiftのバージョンアップ対応とか死ぬほど嫌い。 Python/C++/C Twitter: @rocky_house シフト自動調整スケジュールサイトをVue.js+graphene djangoで構築. https://www.allshifter.com https://iamfax.com 等々力康弘のすべての投稿を表示

ディープラーニング (Deep Learning:CNN )

はじめに

Deep learningの正体

Forward process

前段（畳込みとプーリング）

１．畳み込み処理

2.プーリング処理

前段における注意事項

Note 1：入力画像がカラー画像の場合

Note 2:何枚の特徴量マップを作ればいいのか

NOTE 3: 何層作ればいいのか

後段処理（Classification)

Backward process

d Max Pooling

d ReLU

d Convolution

参考文献

おすすめ記事

投稿者: 等々力康弘

コメントを残すコメントをキャンセル

はじめに

Deep learningの正体

Forward process

前段（ 畳込みとプーリング ）

１．畳み込み処理

2.プーリング処理

前段における注意事項

Note 1：入力画像がカラー画像の場合

Note 2:何枚の特徴量マップを作ればいいのか

NOTE 3: 何層作ればいいのか

後段処理（Classification)

Backward process

d Max Pooling

d ReLU

d Convolution

参考文献

おすすめ記事

投稿者: 等々力 康弘

コメントを残す コメントをキャンセル

前段（畳込みとプーリング）

投稿者: 等々力康弘

コメントを残すコメントをキャンセル