클라우드(AWS)/AIF-C01

[AWS] Multi-modal Embedding Model란? 쉽게 정리

찌르비 2025. 4. 24. 22:55
반응형

 

모델 유형 (Embedding Model) 모델 예시 설명
📝 Text-only GPT, BERT, RoBERTa 텍스트 생성, 이해, 요약, 번역 등
🖼️ Vision-only ResNet, ViT 이미지 분류, 객체 인식 등
🔊 Speech-only Whisper, DeepSpeech 음성 인식, 음성 합성 등
🧩 Multi-modal CLIP, GPT-4V, Flamingo 텍스트 + 이미지/음성 동시 처리
🌐 Graph-based GCN, GAT, GraphSAGE 관계형 데이터 분석 (소셜, 추천 등)

 

📌 Multi-modal Embedding Model란?

다양한 종류의 데이터(예: 텍스트, 이미지, 오디오 등)를 입력으로 받을 수 있는 모델이에요.

(데이터 종류 상관없이 embedding 할 수 있다)

예시: Chatgpt에 문장, 이미지 상관없이 질문할 수 있기 때문에 Chatgpt도 Multi-modal Embedding Model이다.

 

🧠 "Embedding이란

AI는 사진이나 문장을 그냥 이해 못 한다.

그래서 입력한 데이터를 숫자로 바꿔줘야 한다. 이 때 바꾸는 작업을 embedding이라고 한다.

 


🤔 문제

AI 실무자가 기본 모델(FM)을 사용하여 검색 애플리케이션을 설계하려고 합니다. 이 검색 애플리케이션은 텍스트와 이미지가 포함된 쿼리를 처리해야 합니다. 어떤 유형의 기본 모델(FM)을 사용해야 할까요?

  1. Multi-modal embedding model
  2. Text embedding model
  3. Multi-modal generation model
  4. Image generation model

정답

더보기

정답. 3번

 

반응형