반응형


ML Evaluation Metric

머신러닝에서는 학습이 잘 되었는지 확인하기 위한 다양한 Metric이 존재한다.

대표적인 Metric들을 알아보자.

 

 

Classification(분류) Metric


Confusion Matrix(오차 행렬)

  • 기준은 Model이 낸 output이 기준이 되므로, Prediction을 기준으로 명명한다.
  • 모델이 Positive로 분류했으면 Positive, 모델이 Negative로 분류했으면 Negative로 명명된다.
  • 이 때, 정답을 맞춘 Positive라면 True Positive(TP), 정답을 틀린 Positive라면 False Positive(FP)가 되는식이다.
  • 위에서 표시된 TP, FP, FN, TN을 바탕으로 다양한 Metric을 구할 수 있다.

  • Accuracy
    - TP + TN / (TP+FP+TN+FN)
    - 전체중에 True의 개수

  • Precision(정밀도)
    - TP / (TP + FP)
    - 모델이 예측한 positive중에서 실제 Positive의 비율

  • Recall (재현율)
    - TP / (TP + FN)
    - 실제 Positive중 모델이 예측한 비율

  • Fall-Out
    - FP / (FP + TN) 
    - 실제로는 Negative인데 모델이 Positive로 오탐한 비율

  • F1 Score
    - 무조건 Positive로 분류하면 Recall이 1이 되지만 Precision이 폭락하고, 무조건 Negative로 분류하면 Precision은 1이 되지만 Recall이 0이 된다. 
    - 이처럼 Precision이나 Recall은 단일 Metric으로 사용하기엔 모델의 일반화 성능을 나타낼 수 없다는 한계점이 존재하기 때문에 Precision 과 Recall의 조화평균값인 F1 Score를 사용할 수 있다.
  • Receiver Operation Characteristic Curve(ROC) - Area Under Curve(AUC)
    출처: https://glassboxmedicine.com/2019/02/23/measuring-performance-auc-auroc/

    - 통칭 ROC-AUC
    - Fall out과 Recall을 통해 FPR, TPR을 X,Y축으로 두고 Threshold를 변경시키면서 그린 곡선을 ROC라고 한다.
    - 이 때, ROC를 수치화 할 수 있는 방법이 딱히 없으므로, Area Under Curve라는 곡선 밑 부분의 넓이 값을 통해 성능을 측정한다. Recall이 높고, Fall Out은 낮을 수록 넓이가 1에 가까워진다.

 

 

Regression(회귀) Metrics


  • MAE(Mean Absolute Error)
    - 예측값과 Ground Truth 사이의 차이의 절대값의 평균
  • MSE(Mean Squared Error)
    - 예측값과 Ground Truth 사이의 차이의 제곱의 평균
    - 제곱 때문에 Anomaly Data에 매우 민감함(크기가 어마어마하게 커질 수 있음)

  • RMSE(Root Mean Squared Error)
    - MSE에 루트를 씌운 값
    - Anomaly에 상대적으로 덜 민감함

  • RMSLE(Root Mean Squared Logarithmic Error)
    - 예측값과 정답값에 로그를 취한 뒤 계산한 RMSE
반응형
블로그 이미지

Hyunsoo Luke HA

석사를 마치고 현재는 Upstage에서 전문연구요원으로 활동중인 AI 개발자의 삽질 일지입니다! 이해한 내용을 정리하는 용도로 만들었으니, 틀린 내용이 있으면 자유롭게 의견 남겨주세요!

,