回帰モデルの評価指標 メモ

よく忘れるので すぐに確認できるようにメモ

MAE (Mean Absolute Error ) 平均絶対誤差

絶対誤差 = 絶対値 ( 正解値 - 予測値 ) ← これをすべてのサンプルで計算して 平均を取る
誤差の平均なので直感的にわかりやすい
外れ値の影響を低減した形での評価に適した指標 (Kaggle本より)

MSE ( Mean Squared Error ) 平均二乗誤差

二乗誤差 =  ( 正解値 - 予測値 )^ 2 ← これをすべてのサンプルで計算して 平均を取る
予測値と真値の差を二乗するため、真値から大きく外れたデータが多いと、MSEが大きくなりやすい
MSEの単位は真値の二乗になる

RMSE ( Root Mean Squared Error ) 平均平方二乗誤差

↑の MSEのルートを取ったもの
\sqrt{MSE}
RMSEの単位は真値の単位と同じになる。MSEに比べて直感的に分かりやすい
MAEと比較すると外れ値の影響を受けやすいので、あらかじめ外れ値を除く処理などをしておかないと外れ値に過剰に適合したモデルを作成してしまう可能性がある (Kaggle本より)

R^ 2 ( R-squared, coefficient of determination ) 決定係数

モデルがデータにどれだけ当てはまっているかを表す
1.0に近いほどモデルが適合している

決定係数

この指標を最大化することはRMSEを最小化することと同じ意味 (Kaggle本より)
これをはてな記法で書くのはしんどい...

RMSLE ( Root Mean Squared Logarithmic Error ) 平均平方二乗対数誤差

二乗対数誤差 = (log(1 + 正解値) - log( 1+ 予測値) )^ 2 ← これをすべてのサンプルで計算して 平均を取ったのが MSLE ( Mean Squared Logarithmic Error )
MSLEのルートを取ったのが RMSLE
\sqrt{MSLE}

MAPE (Mean Absolute Percentage Error ) 平均絶対パーセンテージ誤差

絶対パーセンテージ誤差 = 絶対値 ( 正解値 - 予測値) / 正解値 ← これをすべてのサンプルで計算して 平均を取る