머신러닝의 분류 모델(Classification Model) 성능 지표에 대해 조사해 보았다.
Classification Model (분류 모델)
분류 모델 성능 평가 지표
분류 모델의 성능을 평가하기 위해 다음과 같은 지표가 주로 사용된다.
1) Accuarcy (정확도)
2) Precision (정밀도)
3) Recall (재현율)
4) Confusion Matrix (오차 행렬)
5) F1-score
6) ROC - AUC
1. Accuracy (정확도)
Accuracy(정확도)는 아~~ 주 쉽다😁
$$ Accuracy = \frac{ 올바르게 분류한 샘플 수 }{ 전체 샘플 수 } $$
🔹 예시:
100개의 샘플 중 90개를 맞췄다면, 정확도 = 90%
🔹 실제 식
$$ Accuracy = \frac{ TP+TN }{ TP+TN+FP+FN } $$
TP (True Positive): 실제 positive을 positive으로 예측한 경우
TN (True Negative): 실제 negative를 negative으로 예측한 경우
FP (False Positive): 실제 negative을 positive으로 잘못 예측한 경우
FN (False Negative): 실제 양성을 음성으로 잘못 예측한 경우
2. Precision (정밀도)
🔹 양성(Positive) 예측이 얼마나 정확한지 평가할 수 있다
🔹 FP를 줄이는 것이 중요할 때 사용 (예: 📧스팸 필터에서 정상 메일을 스팸으로 분류하는 경우)
$$ Precision = \frac{ (TP) }{ (TP + FP)} $$
📧 예시: 스팸 메일 분류 모델
메일 100개 중에 실제 스팸은 40개, 정상 메일 60개 있다고 가정
스팸 메일 분류 모델은 다음과 같이 예측했다.
- ✅ (TP = 35) 35개의 스팸을 정확히 예측
- ❌ (FP = 10) 10개의 메일을 스팸으로 잘못 예측
$$ Precision = \frac{ (35) }{ (35 + 10)} = \frac{ (35) }{ (45) } = 0.778 $$
3. Recall (재현율)
🔹 실제 양성(Positive)을 얼마나 잘 찾아내는지 평가할 수 있다
🔹 FN을 줄이는 것이 중요할 때 사용 (예: 암 진단 모델에서 암 환자를 놓치면 안 됨)
$$ Recall = \frac{ (TP) }{ (TP + FN)} $$
모델이 실제 양성(Positive) 데이터를 얼마나 잘 되찾았는지(Recalled) 나타내기 때문이다.
4. Confusion Matrix (오차 행렬)
모델의 예측 결과를 실제 정답과 비교하여 4가지 경우의 수로 정리한 표.
단순한 표이다. 아주 쉽다!!
Predicted (예측) | |||
Positive | Negative | ||
Acutual (실제) |
Positive | TP (True Positive) | FN (False Negative) |
Negative | FP (False Positive) | TN (True Negative) |
📧 예시: 스팸 메일 분류 모델
메일 100개 중에 실제 스팸은 40개, 정상 메일 60개 있다고 가정
스팸 메일 분류 모델은 다음과 같이 예측했다.
- ✅ (TP = 35) 35개의 스팸을 정확히 예측
- ✅ (TN = 50) 50개의 메일을 정확히 예측
- ❌ (FN = 5) 5개의 스팸을 정상 메일로 잘못 예측
- ❌ (FP = 10) 10개의 메일을 스팸으로 잘못 예측
Predicted (예측) | |||
Positive | Negative | ||
Acutual (실제) |
Positive | 35 (TP) ✅ | 5 (FN) ❌ |
Negative | 10 (FP) ❌ | 50 (TN) ✅ |
- True Positive Rate (TNR) = 35 / (35 + 5) = 0.875
- False Negative Rate (FNR) = 5 / (35 + 5) = 0.125
- True Negative Rate (TNR) = 50 / (50 + 10) = 0.8333
- False Positive Rate (FPR) = 10 / (50 + 10) = 0.1667
5. F1-score
Precision과 Recall의 조화 평균(Harmonic Mean)
F1-score는 정밀도(Precision)와 재현율(Recall)의 균형 있게 평가하는 지표이다.
$$ F1 = 2 \times \frac{ Precision \times Recall) }{ ( Precision + Recall )} $$
📌 F1-score는 Precision과 Recall의 균형을 이루는 지표이기에
1에 가까울수록 균형이 좋고, 0에 가까울수록 균형일 안 좋다고 할 수 있다
6. ROC - AUC
ROC - AUC는 이진 분류 모델의 성능을 평가하는 데 사용되는 지표이다. ('Yes' or 'No' 분류)
🔦 ROC (Receiver Operating Characteristic Curve)
ROC는 TPR을 FPR에 대해 그린 그래프이다.
- y축: True Positive Rate (TPR): 실제 긍정인 샘플 중 모델이 얼마나 잘 긍정으로 분류했는지를 나타낸다.
- x축: False Positive Rate (FPR): 실제 부정인 샘플 중 모델이 잘못 긍정으로 분류한 비율을 나타낸다
ROC Curve는 이진 분류 모델의 임계값(Threshold)을 보여주며, 모델의 성능을 시각적으로 보여준다.
🔦 AUC (Area Under the Curve)
AUC는 ROC Curve 아래의 면적을 나타낸다.
AUC는 이진 분류 문제에서 모델이 얼마나 잘 수행되는지를 평가하는 지표이다.
- AUC = 1: 모델이 모든 예측을 완벽하게 맞혔다는 의미
- AUC = 0.5: 모델이 예측을 잘못하거나, 단순히 무작위로 예측한 것과 같다는 의미
- AUC > 0.5: 모델이 어느 정도는 좋은 성능을 보여주고 있다는 의미
🤔 문제 1
회사는 식물 잎 사진에서 식물 질병을 예측하는 이미지 분류 모델을 구축했습니다. 회사는 모델이 올바르게 분류한 이미지의 수를 평가하고자 합니다.
모델의 성능을 측정하기 위해 어떤 평가 지표를 사용해야 합니까?
- R-squared score (결정 계수)
- Accuracy (정확도)
- Root mean squared error (RMSE, 평균 제곱근 오차)
- Learning rate (학습률)
정답
정답 2번
🤔 문제 2
기초 모델(Foundation Model, FM)의 성능 평가에서 F1 점수는 무엇을 측정하나요?
- 모델의 정밀도(Precision)와 재현율(Recall)
- 모델이 응답을 생성하는 속도
- 모델 운영에 드는 금전적 비용
- 모델 연산의 에너지 효율성
정답
정답. 1번
'클라우드(AWS) > AIF-C01' 카테고리의 다른 글
[AWS] 머신러닝에서 'Temperature'란? 쉽게 정리 (0) | 2025.03.22 |
---|---|
[AWS] Amazon Sagemaker란? 아주 쉽게 정리 (0) | 2025.03.12 |
[AWS] Decision Tree란? (의사 결정 트리) 쉽게 정리 (0) | 2025.03.09 |
[AWS] Named Entity Recognition (NER)란? 쉽게 정리 (0) | 2025.03.08 |
[AWS] Partial Dependence Plots(PDPs)란? 쉽게 정리 (0) | 2025.03.08 |