1. Confusion Matrix - 분류모델에 대한 평가

Classification에 대한 평가를 하기 위해서 Confusion Matrix를 사용한다

암이 있다고 하자. 암을 두가지로 분류하면 크게 양성과 음성으로 분류할 수 있다.

양성을 양성이라고 분류하는 경우, 음성을 음성으로 분류하는 경우는 100%의 정확도를 가진다.

양성을 양성으로 분류하는 경우는 TP

양성을 음성으로 분류하는 경우는 FN

음성을 음성으로 분류하는 경우는 TN

음성을 양성으로 분류하는 경우는 FP

Accuracy: 정확도, TP+TN/P+N

Error: 1-정확도

Sensitivity(Recall or True positive rate:TPR) : 원래 Positive 중에서 Positive로 분류한 수를 나타낸다.

Ex> 원본 데이터에 암 양성이 100개 있었는데, 모델에 의해서 90개가 분류되었다면?

Sensitivity = 0.9이다.

Precision(정밀성): 예측한 Positive 중에서 실제 Positive는 얼마냐(*항상 이 부분이 헷갈렸다) 이렇게 생각하면 어떨까? 예측한 게 얼마나 정밀해?

TP/(TP+NP)

Specificity: Negative로 판단한 것 중에서 실제 Negative

SP: TN/(TN/FP)

False Positive Rate(FPR): 원래는 Positive값인데 잘못해서 Negetive로 분류한 경우

Ex> 게임에서 정상 사용자를 비정상 사용자로 분류해 버리면? 게이머는 선의의 패널티를 받게 된다…!

~~FPR = FN/P~~

FPR = FN/P

2. ROC Curve - 모델 평가하기

PR 그래프는 X 축을 Recall 값을, Y축을 Precision 값을 사용한다.

· Sensitive (Recall) = (TP) / P

· Precision = TP / (TP+FP)

출처: http://bcho.tistory.com/1206 [조대협의 블로그]

Steve-Lee's Deep Insight