반응형
📏 모델 평가 지표
생성형 AI 모델의 평가는 일반 ML보다 더 어렵다. 왜냐하면, 생성 결과가 비결정적(매번 다름)이기 때문이다.
📍전통적 ML에서 사용되는 지표:
- Accuracy (정확도)
- RMSE (루트 평균 제곱 오차)
https://jibinary.tistory.com/741#google_vignette
[AWS] 선형 회귀(Linear Regression) 모델 평가 지표 (MSE, RMSE, MAE)
Linear Regression📈 선형 회귀 모델 평가 지표지도 학습(Supervised Learning) 방식 중 하나인 선형 회귀 모델 🧮 Mean Squared Error (MSE)"예측 값"과 "실제 값" 사이의 차이(오차)를 제곱해서 평균낸 값이다.yₖ
jibinary.tistory.com
https://jibinary.tistory.com/699
[AWS] 머신러닝 분류(Classification) 모델 성능 평가 지표 (Accuarcy, Precision, Recall, Confusion Matrix, F1-score,
머신러닝의 분류 모델(Classification Model) 성능 지표에 대해 조사해 보았다. Classification Model (분류 모델)분류 모델 성능 평가 지표분류 모델의 성능을 평가하기 위해 다음과 같은 지표가 주로 사용
jibinary.tistory.com
📍생성형 AI에서 사용되는 지표:
- ROUGE: 요약(summary)/번역(translation) 품질 평가에 주로 사용
(Recall-Oriented Understudy for Gisting Evaluation) - BLEU: 기계 번역 품질 평가, 모델이 번역한 문장과 사람 번역 문장을 비교해서, 모델 번역이 얼마나 정확한 단어와 구문을 썼는지(정확도 중심)
(Bilingual Evaluation Understudy) - BERTscore: 생성된 텍스트와 정답 텍스트 간 의미 유사도 평가 (semantic similarity)
- Perplexity(혼란도): 언어 모델의 성능을 평가하는 지표.
어떤 단어나 문장 시퀀스를 얼마나 잘 예측하는지, 그 확률을 수치로 나타낸 것
🧪 공개 벤치마크
LLM의 성능을 객관적으로 평가하려면 아래 벤치마크를 사용할 수 있어요
벤치마크 이름 | 설명 |
GLUE | 여러 자연어 처리(NLP) 과제를 모아둔 평가 세트 (감정 분석, 질문 응답 등) |
SuperGLUE | GLUE보다 더 어려운 과제 포함 (추론, 독해 등) |
MMLU | 수학, 역사, 법률 등 다양한 주제의 문제 해결 능력 평가 |
BIG-bench | 현재 LLM이 해결하기 어려운 과제 평가 (편향, 논리, 소프트웨어 등) |
HELM | 다양한 과제에서 성능을 종합적으로 비교 (요약, 감정 분석, 편향 평가 등) |
👩⚖️ 사람을 통한 평가
- 실제 사람(Human annotator)이 모델의 응답을 평가할 수도 있다.
- 예: Amazon SageMaker JumpStart에서 여러 모델의 응답 비교 평가
🔍 6. SageMaker 및 Bedrock 기반의 평가 도구
- SageMaker Clarify: 모델 품질, 편향 분석 등을 평가
- SageMaker JumpStart: 평가 작업(Job)을 생성하여 모델을 비교
- Amazon Bedrock 평가 모듈:
- BERTscore 기반으로 모델 응답과 정답을 비교
- "hallucination(환각)"이나 "accuracy" 평가 가능
반응형
'클라우드(AWS) > AIF-C01' 카테고리의 다른 글
[AWS] Feature Engineering란? 쉽게 정리 (0) | 2025.05.15 |
---|---|
[AWS] AWS Trainium란? 쉽게 정리 (기계 학습 전용 EC2) (0) | 2025.05.13 |
[AWS] FM, Foundation Model의 훈련 과정 (Domain Adaptation Fine-tuning, Instruction-based Fine-tuning, RLHF) (0) | 2025.05.12 |
[AWS] Vector Database란? 쉽게 정리 (1) | 2025.05.11 |
[AWS] Diffusion Models(디퓨전 모델)이란? 쉽게 정리 (0) | 2025.05.10 |