l8l技術メモ

機械学習・深層学習・組込みとかのメモ

メモ: Why ReLU networks yield high-confidence predictions far away from the training data and how to mitigate the problem

Why ReLU networks yield high-confidence predictions far away from the training data and how to mitigate the problem
https://arxiv.org/abs/1812.05720

信頼性(やしばしば求められる妥当性)という観点から、
知らないデータに対しては、「don't-know」(全クラスに対する確率が低い)を出力してほしいという素朴な気持ちがある。
この課題に取り組んだ論文。

 

■ メモ:

# 課題:

trainデータに含まれない画像をCNN分類機にいれると、high-confidenceな結果が表れてしまう。知らない種類のデータにはすべてのクラスについて均等の確率を出力してほしい。

 

なぜreluでactivateされるCNNは未知入力に対してhigh-confidence prediction を出力するのか?
ここは読んでいない。

 

学習分布 Pinと未知分布Pout(例えば、uniform distribution) を仮定する。
学習時に工夫することで、未知データに対して均等分布を出力させる。
2種類あるが、基本は同じ。
1. CEDA
Pinからのサンプルについては通常のlossと同じ。同時に、Poutからサンプルした z に対しては、f(z :Θ) はhigh-confidenceが出にくい方向に学習する。
2. ACET
単純にPoutからサンプルせず、Poutからサンプルした z について、その近辺( || u -z || < ε )で最もlossが大きくなる u を探索したのちに、その u についてパラメータ最適化を行う。

 

# 実験結果:
評価指標は
test accuracy
MMC: mean maximal confidence
AUROC
FPR@95

学習させたデータセットに対するtest_accはMNISTでは下がり、CIFAR-10では上回った。
学習データセットとは異なるデータセットや、ノイズ、adversarial sample に対して、よりlow-confidenceな結果を出力するようになった。

以上。