メモ: Why ReLU networks yield high-confidence predictions far away from the training data and how to mitigate the problem
Why ReLU networks yield high-confidence predictions far away from the training data and how to mitigate the problem
https://arxiv.org/abs/1812.05720
信頼性(やしばしば求められる妥当性)という観点から、
知らないデータに対しては、「don't-know」(全クラスに対する確率が低い)を出力してほしいという素朴な気持ちがある。
この課題に取り組んだ論文。
■ メモ:
# 課題:
trainデータに含まれない画像をCNN分類機にいれると、high-confidenceな結果が表れてしまう。知らない種類のデータにはすべてのクラスについて均等の確率を出力してほしい。
なぜreluでactivateされるCNNは未知入力に対してhigh-confidence prediction を出力するのか?
ここは読んでいない。
学習分布 Pinと未知分布Pout(例えば、uniform distribution) を仮定する。
学習時に工夫することで、未知データに対して均等分布を出力させる。
2種類あるが、基本は同じ。
1. CEDA
Pinからのサンプルについては通常のlossと同じ。同時に、Poutからサンプルした z に対しては、f(z :Θ) はhigh-confidenceが出にくい方向に学習する。
2. ACET
単純にPoutからサンプルせず、Poutからサンプルした z について、その近辺( || u -z || < ε )で最もlossが大きくなる u を探索したのちに、その u についてパラメータ最適化を行う。
# 実験結果:
評価指標は
test accuracy
MMC: mean maximal confidence
AUROC
FPR@95
学習させたデータセットに対するtest_accはMNISTでは下がり、CIFAR-10では上回った。
学習データセットとは異なるデータセットや、ノイズ、adversarial sample に対して、よりlow-confidenceな結果を出力するようになった。
以上。