MNIST はディープラーニングの Hello World だと頻繁に言われていて、日本語翻訳したものもネット上にどっちゃりありますが、機械的に翻訳しただけで意味まで理解できるものはほぼありません。
もう幾度となく読んでいますが、基礎は大切ということで MNIST For ML Beginners の内容をもう一度読みこんでみます。
MNIST
言わずと知れているので今更説明するほどでもないですが、手書きの 0 から 9 までの数字の画像を使って、どのように分類するかを機械に学習させます。
TensorFlow上での学習
フレームワークによって記述の仕方が異なるので、TensorFlow ではどのように書いているのかに着目していきます。
記述方式メインで話を進めるので、中身の関数の詳細とかはスルーです。また、あくまで自分向けの備忘録というスタンスなので何かあってもご了承ください。
モデル構築
各変数を用意して、式を作ります。
\[
y = Wx + b
\]
\(y, x, b\) は 10×1 のベクトル、\(W\) は 10×784 の行列。
\(y\) は \(W\) と \(x\) の内積にバイアス \(b\) を足したものに softmax 関数 (活性化関数) をかませて出力した値です。ちなみに、softmax 関数はシグモイド関数を多変量に対応させた関数らしいです。
Variable と placeholder がありますが、placeholder はただ場所を用意しておくだけで後から実際の値を入れていきます。そのため、実行時に feed がないと死にます。
\(W\) の placeholder では shape が [None, 784] になっていますが、この None は任意の次元に適用できるようにしているとかなんとか。この意味が自分の中ではいまいちはっきりしていません。
正誤判定
教師あり学習なので、正誤判定が必要になります。y_ に正しい値を入れて、推測値の y と比較していきます。
損失関数にはクロスエントロピー関数を用いています。
最適化
正誤判定して、その誤差が小さくなっていくように更新量を変化させていきます。
今回は最適化関数に SGD (確率的勾配降下法) を用いていますが、他にも Adam, AdaGrad, AdaDelta など色々あり、適する学習率も異なってくるようです。上手く設定しないと学習が収束しなかったりしますが、そこら辺は経験則になっています。
学習
一回の学習が与える影響をいい感じに反映するために、ミニバッチ学習します。
評価
最後にどれだけ推測が当たっているかを出力します。
ソースコード
import tensorflow as tf mnist = input_data.read_data_sets(FLAGS.data_dir, one_hot=True) # model x = tf.placeholder(tf.float32, [None, 784]) W = tf.Variable(tf.zeros([784, 10])) b = tf.Variable(tf.zeros([10])) y = tf.nn.softmax(tf.matmul(x, W) + b) # correct data y_ = tf.placeholder(tf.float32, [None, 10]) # loss cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1])) # optimizing train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy) # training init = tf.global_variables_initializer() sess = tf.Session() sess.run(init) for i in range(1000): batch_xs, batch_ys = mnist.train.next_batch(100) sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys}) # evaluating correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1)) accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))
最後に
画像認識というと畳み込みニューラルネットワーク (CNN) が主流ですが、ビギナー向けということでクロスエントロピーの誤差を小さくする方向に学習していくという方法を用いています。
CNN ばかり見ていると視野が狭くなりますね。