1. Confusion Matrix - 분류모델에 대한 평가
암이 있다고 하자. 암을 두가지로 분류하면 크게 양성과 음성으로 분류할 수 있다.
양성을 양성이라고 분류하는 경우, 음성을 음성으로 분류하는 경우는 100%의 정확도를 가진다.
양성을 양성으로 분류하는 경우는 TP
양성을 음성으로 분류하는 경우는 FN
음성을 음성으로 분류하는 경우는 TN
음성을 양성으로 분류하는 경우는 FP
Accuracy: 정확도, TP+TN/P+N
Error: 1-정확도
Sensitivity(Recall or True positive rate:TPR) : 원래 Positive 중에서 Positive로 분류한 수를 나타낸다.
Ex> 원본 데이터에 암 양성이 100개 있었는데, 모델에 의해서 90개가 분류되었다면?
Sensitivity = 0.9이다.
Precision(정밀성): 예측한 Positive 중에서 실제 Positive는 얼마냐(*항상 이 부분이 헷갈렸다) 이렇게 생각하면 어떨까? 예측한 게 얼마나 정밀해?
TP/(TP+NP)
Specificity: Negative로 판단한 것 중에서 실제 Negative
SP: TN/(TN/FP)
False Positive Rate(FPR): 원래는 Positive값인데 잘못해서 Negetive로 분류한 경우
Ex> 게임에서 정상 사용자를 비정상 사용자로 분류해 버리면? 게이머는 선의의 패널티를 받게 된다…!
FPR = FN/P
FPR = FN/P
2. ROC Curve - 모델 평가하기
PR 그래프는 X 축을 Recall 값을, Y축을 Precision 값을 사용한다.
· Sensitive (Recall) = (TP) / P
· Precision = TP / (TP+FP)
.
.
.
출처: http://bcho.tistory.com/1206 [조대협의 블로그]
댓글