2023-01-28から1日間の記事一覧

深層モデルのための最適化

目次 SGD Momentum Nesterov AdaGrad RMSProp AdaDelta Adam 参考文献 SGD データ1つだけ をサンプルし、最急降下法にランダム性を入れる。 更新式 サンプルコード param[key] -= self.lr * grad[key] lr: 学習率特徴(課題) SGDの非効率な探索経路による。そ…