不惑之年: Keras: CNN辨識Cifar-10

CIRAF-10資料集是一組影像辨識的資料集，共有十種分類(包含有鳥、貓、汽車、卡車等等圖片，因圖片是彩色，雜訊多(有時連人都難以辨認)，所以辨識難度比之前的MNIST高得多。我們接下來就以CNN(Convolution neural network)建立模型，進行CIRAF-10資料庫的辨識。
CNN一般來說比先前的基礎ANN多元感知器能達到更高的準確率，利用卷積層及池化層能提取圖片的特徵，增加辨識的能力，CNN的基礎理論從這裡可以看到不錯的介紹，所以就不囉嗦，直接來看看Keras程式吧。
先import需要的資料庫及CIRAF-10資料集，因Keras已內建，可以直接使用cifra10.load_data()的指令讀取:

另外開一個dictionary(label_dictionary)儲存每一個label數字代表的類別(共十種)。

看一下download的內容:

可以知道有訓練圖形(image)資料50000筆，驗證(Test)資料則有10000筆，每一筆資料為32x32的矩陣，最後一個維度是RGB三原色三個數字，代表圖素的顏色。標籤(label)的資料則有一個數字表示圖片的類別。

我們可以看一筆資料中的一個畫素:

(159, 102, 101)各代表RGB三原色的數字大小，可進一步看圖片:

是一台紅色車子，預期標籤應該是1(注意程式中已利用dictionary轉換標籤了)。

接下來進行數據的預處理，同樣包含了設定類型(float32)並標準化以提升準確率，可以看一下第一筆資料的第一個圖素，確定有沒有錯誤:

另外有一點要注意的是，跟ANN有差異的地方在於資料轉換，MNIST原本資料是(60000, 28, 28)，ANN轉換成一維的784個數字(看這邊)，而CNN必須保持圖片二維的特性，之後才可以利用卷積層及池化層提取圖片的特徵。

標籤方面也是必需轉換成one hot encoding的型態(也一樣可以參考前篇):