클라우드(AWS)/AIF-C01
[AWS] SLM과 LLM 비교 쉽게 정리 (Small Language Model, Large Language Model)
찌르비
2025. 4. 8. 20:08
반응형
특징 |
SLM | LLM |
Small Language Model | Large Language Model | |
⚙️매개변수 (parameter) | 수백만 개 이하 | 수십억~수천억 개 |
📈성능 | 특정 작업에 초점을 둔다 (예: 문서 분류, 간단한 자연어 처리). |
복잡한 작업에서 우수한 성능 제공. (문맥 이해, 텍스트 생성, 번역 등) |
💰비용 (cost) | 낮은 계산 자원과 메모리 요구 사항 | 높은 계산 자원과 GPU/TPU 메모리 필요 |
SLM (Small Language Model)
작은 규모의 언어 모델로, 주로 경량화되어 빠른 응답 속도와 낮은 리소스 사용량이 특징이다.
보통 엣지 디바이스(edge device) 또는 특정 도메인에 최적화된 모델로 사용된다.
SLM 예시
- DistilBERT: BERT의 경량화 버전 (약 40% 적은 파라미터, 속도는 60% 빠름, Hugging Face에서 제공)
- MobileBERT: 모바일 환경에서 사용할 수 있도록 경량화한 BERT
- TinyLlama: 작은 버전의 LLaMA 모델 (예: 1.1B 파라미터 등)
LLM (Large Language Model)
수십억~수천억 개의 파라미터를 가진 대규모 언어 모델로, 다양한 작업(텍스트 생성, 번역, 요약, 질문 응답 등)에 사용된다.
LLM 예시
- GPT-4 (OpenAI): ChatGPT에서 사용되는 최신 대형 모델
- Claude 3 (Anthropic): 강력한 reasoning 능력을 가진 모델
- Gemini 1.5 (Google DeepMind, 구 PaLM): 멀티모달 지원 및 긴 context 처리 가능
- LLaMA 2 / LLaMA 3 (Meta): 오픈소스 기반의 대형 언어 모델
🤔 문제
회사는 엣지 디바이스에서 추론을 수행하는 애플리케이션을 만들기 위해 언어 모델을 사용하려고 합니다. 추론은 가능한 한 최저 지연 시간(최소한의 레이턴시) 을 가져야 합니다.
어떤 해결책이 이러한 요구사항을 충족할 수 있을까요?
- 엣지 디바이스에 최적화된 소형 언어 모델(SLM) 을 배포한다.
- 엣지 디바이스에 최적화된 대형 언어 모델(LLM) 을 배포한다.
- 엣지 디바이스와 비동기적으로 통신하는 중앙 집중식 소형 언어 모델(SLM) API 를 사용한다.
- 엣지 디바이스와 비동기적으로 통신하는 중앙 집중식 대형 언어 모델(LLM) API 를 사용한다.
정답
더보기
정답. 1번
최소한의 latency를 가지려면 SLM을 사용해야된다.
반응형