画像認識コンペまとめ - 数理コンサルタントの備忘録

ILSVRC：画像認識コンペ
- ImageNet(1400万枚)を使った一般物体認識のコンペ
- AlexNet 2012 優勝
  - 初めて深層学習の概念を取り入れたモデル
- GoogLeNet 2014 優勝
  - Inceptionモジュールという小さなネットワークを積み上げた構造
    - Inceptionモジュールは、3つの異なるサイズお畳み込みフィルタ(1x1,3x3,5x5)と3x3のmaxで構成される
    - 13層の畳み込み層と3層の全結合層の合計16層から構成
    - 畳み込みフィルタのみを用いた上で、層を深くした
    - 表現力を維持したままパラメータを削減できる
- VGG16 2014 準優勝
  - 3x3の畳み込みフィルタのみを用いて層を深くする
  - 計算量を減らせられる
- ResNet 2015 優勝
  - 最大152層から構成される
  - 残差(求めたい関数と入力との差)を学習し、深いネットワークの学習を容易にした
  - Skip connectionが特徴。勾配消失を防止する
  - ResNetのようにGlobal Poolingがある場合やFCN (fully connected convolutional network)がモデルで用いられている場合は入力サイズに関係なく学習ができる
  - 推論でも転移学習でも学習済みの結果をそのまま使える
- DenseNet 2016
  - 前方の各層からの出力全てが後方の層への入力として用いられる
  - Dense Blockという構造を持つ
- EfficientNet 2019
  - 2019年にGoogleから提案されたモデルで、パラメータが少ない比較的軽いモデルでSoTAを達成
  - モデルの深さ、広さ、入力画像の大きさをバランス良く調整している