深層学習_画像認識_基礎

畳み込み層

画像の場合、縦、横、チャンネルの3次元のデータをそのまま学習し、次に伝えることができる.
→3次元の空間情報も学習できるような層が畳み込み層である.

畳み込み層の演算

入力画像とフィルタとの各要素の積和演算を行う.

パディング

畳み込みによる出力サイズが小さくなって演算できなくなるため、入力データの周りに固定データを合わせて入力サイズを大きくして、出力サイズを調整する.

ストライド

入力画像に対してフィルタを1つずつずらしながら畳み込み演算を行うが、ずらす2つ、3つ設定することもできる.それはスライドと呼ぶ.

チャンネル

フィルターの数=チャンネルの数

処理後の画像サイズの計算式

プーリング層

畳み込み層で浮き出てきた特徴をぼやけさせ、他の似たような特徴と同じとみなして学習させる.重み係数を使わない.


im2col



def im2col(input_data, filter_h, filter_w, stride=1, pad=0):
    N, C, H, W = input_data.shape
    out_h = (H + 2*pad - filter_h)//stride + 1
    out_w = (W + 2*pad - filter_w)//stride + 1

    img = np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant')
    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))

    for y in range(filter_h):
        y_max = y + stride*out_h
        for x in range(filter_w):
            x_max = x + stride*out_w
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]

    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)
    return col
# im2colによる画像を変換
 col = im2col(x, kh, kw, sh, sw, ph, pw)
n, c, kh, kw, out_h,  out_w = col.shape
#適切な形に変形しmaxをとる
col = col.reshape(n, c, kh*kw, out_h, out_w)
y = col.max(axis = 2) # 各カーネルの領域ごとにmaxを取る

or --------------------------------------------------------------------------
col = im2col(x, pool_h, pool_w, stride, pad, constant_values=0)
col = col.reshape(-1, pool_h * pool_w)
out_idx = np.argmax(col, axis=1) # 最大値のインデックスを求める
out = np.max(col, axis=1)

out = out.reshape(N, out_h, out_w, C).transpose(0, 3, 1, 2)