티스토리

아주 쉽게 정리한 블로그

검색하기

[AWS] SLM과 LLM 비교 쉽게 정리 (Small Language Model, Large Language Model)

클라우드(AWS)/AIF-C01

[AWS] SLM과 LLM 비교 쉽게 정리 (Small Language Model, Large Language Model)

찌르비 2025. 4. 8. 20:08

특징	SLM	LLM
특징	Small Language Model	Large Language Model
⚙️매개변수 (parameter)	수백만 개 이하	수십억~수천억 개
📈성능	특정 작업에 초점을 둔다 (예: 문서 분류, 간단한 자연어 처리).	복잡한 작업에서 우수한 성능 제공. (문맥 이해, 텍스트 생성, 번역 등)
💰비용 (cost)	낮은 계산 자원과 메모리 요구 사항	높은 계산 자원과 GPU/TPU 메모리 필요

SLM (Small Language Model)

작은 규모의 언어 모델로, 주로 경량화되어 빠른 응답 속도와 낮은 리소스 사용량이 특징이다.
보통 엣지 디바이스(edge device) 또는 특정 도메인에 최적화된 모델로 사용된다.

SLM 예시

DistilBERT: BERT의 경량화 버전 (약 40% 적은 파라미터, 속도는 60% 빠름, Hugging Face에서 제공)
MobileBERT: 모바일 환경에서 사용할 수 있도록 경량화한 BERT
TinyLlama: 작은 버전의 LLaMA 모델 (예: 1.1B 파라미터 등)

https://huggingface.co/docs/transformers/model_doc/distilbert

https://huggingface.co/docs/transformers/model_doc/mobilebert

LLM (Large Language Model)

수십억~수천억 개의 파라미터를 가진 대규모 언어 모델로, 다양한 작업(텍스트 생성, 번역, 요약, 질문 응답 등)에 사용된다.

LLM 예시

GPT-4 (OpenAI): ChatGPT에서 사용되는 최신 대형 모델
Claude 3 (Anthropic): 강력한 reasoning 능력을 가진 모델
Gemini 1.5 (Google DeepMind, 구 PaLM): 멀티모달 지원 및 긴 context 처리 가능
LLaMA 2 / LLaMA 3 (Meta): 오픈소스 기반의 대형 언어 모델

🤔 문제

회사는 엣지 디바이스에서 추론을 수행하는 애플리케이션을 만들기 위해 언어 모델을 사용하려고 합니다. 추론은 가능한 한 최저 지연 시간(최소한의 레이턴시) 을 가져야 합니다.
어떤 해결책이 이러한 요구사항을 충족할 수 있을까요?

엣지 디바이스에 최적화된 소형 언어 모델(SLM) 을 배포한다.
엣지 디바이스에 최적화된 대형 언어 모델(LLM) 을 배포한다.
엣지 디바이스와 비동기적으로 통신하는 중앙 집중식 소형 언어 모델(SLM) API 를 사용한다.
엣지 디바이스와 비동기적으로 통신하는 중앙 집중식 대형 언어 모델(LLM) API 를 사용한다.

정답

정답. 1번

최소한의 latency를 가지려면 SLM을 사용해야된다.