클라우드(AWS)

📌 머신러닝에서 Context window란?LLM(대형 언어 모델)이 한 번에 이해할 수 있는 입력(프롬프트) + 출력의 총 길이📌 프롬프트가 너무 길면 모델이 잘라내거나 에러 발생 → context window 크기 확인 필수 단위: 토큰(Token)어떤 모델의 context window가 4,000토큰이면 → 사용자 프롬프트 + AI 응답 합쳐서 4,000토큰까지만 다룰수 있다.예시: GPT-3.5 → 약 4,096 tokens,예시: Claude 3 → 최대 200,000 tokens 이상🧑‍💻 사용자 입력 (프롬프트):"오늘은 날씨가 참 좋아요. AI가 요즘 화제가 되고 있는데, 사람들이 많이 사용하고 있어요. 챗봇은 대화를 하고, 그림도 그리고, 글도 쓰고, 정말 다양한 일을 하죠."(..
Amazon OpenSearch Service – Vector SearchOpenSearch Service는 Vector Search (벡터 검색) 기능을 제공한다.이는 AI 및 머신러닝 기반 애플리케이션에서 유사한 데이터를 빠르게 검색할 수 있도록 도와주는 기능이다.특히 추천 시스템, 이미지 검색, 자연어 처리(NLP) 기반 검색 시스템 등에 많이 사용된다.✅ Vector Search란?일반적인 검색은 "단어" 중심의 키워드 검색 (Keyword Search)이다.벡터 검색은 데이터를 vector화(숫자 배열)하여 "비슷한 의미"를 가진 데이터를 검색한다.예시:“강아지”라는 단어와 의미적으로 비슷한 단어들(예: 애완동물, 반려견)을 찾는 데 사용됨.vector 예시"고양이" → [0.12, -0.53,..
Bedrock의 FM을 fine-tuning 하는 법파인튜닝(fine tune)은 이미 학습된 Foundation Model(FM)에 자신의 회사 데이터를 추가로 학습시켜, 더 자신의 회사에 맞는 정확한 모델로 만드는 과정이다. ✅ Bedrock에서 FM 파인튜닝하는 기본 단계 단계 설명 1️⃣ 데이터 준비(JSONL 형식으로 저장)프롬프트(prompt)와 응답(completion)이 포함된 라벨화된 데이터를 준비한다.이 데이터들을 .jsonl (JSON Lines) 형식으로 저장한다.예시: { "prompt": "고객이 배송 지연을 문의할 때", "completion": "사과하고 예상 배송일 안내" }2️⃣ S3에 업로드.jsonl 파일을 Amazon S3 버킷에 업로드3️⃣ 콘솔에서 파인튜닝 시작A..
Linear Regression📈 선형 회귀 모델 평가 지표지도 학습(Supervised Learning) 방식 중 하나인 선형 회귀 모델 🧮 Mean Squared Error (MSE)"예측 값"과 "실제 값" 사이의 차이(오차)를 제곱해서 평균낸 값이다.yₖ: 실제 값 (ground truth)ŷₖ: 예측 값 (predicted value)n: 데이터 포인트 수 (number of data points)MSE 값이 작을수록 모델의 예측이 정확하다고 판단할 수 있다.MSE 값 예시 🔢설명0✅ 매우 우수: 예측이 실제랑 완벽히 같을 때0.1 ~ 2👍 좋음: 약간의 오차만 있을 때5 ~ 20오차가 꽤 클 때50 이상 예측이 실제랑 거의 다를 때 📏 Root Mean Squared Error (RM..
모델 유형 (Embedding Model)모델 예시설명📝 Text-onlyGPT, BERT, RoBERTa텍스트 생성, 이해, 요약, 번역 등🖼️ Vision-onlyResNet, ViT이미지 분류, 객체 인식 등🔊 Speech-onlyWhisper, DeepSpeech음성 인식, 음성 합성 등🧩 Multi-modalCLIP, GPT-4V, Flamingo텍스트 + 이미지/음성 동시 처리🌐 Graph-basedGCN, GAT, GraphSAGE관계형 데이터 분석 (소셜, 추천 등) 📌 Multi-modal Embedding Model란?다양한 종류의 데이터(예: 텍스트, 이미지, 오디오 등)를 입력으로 받을 수 있는 모델이에요.(데이터 종류 상관없이 embedding 할 수 있다)예시: Cha..
📌 Average Response Time (평균 응답 시간)사용자가 입력을 주었을 때, AI 모델이 결과를 반환할 때까지 걸리는 평균 시간이다.사용 예시:실시간 시스템 (예: 챗봇, 자동 응답 시스템, 음성 비서 등)인터랙티브 웹 서비스 (예: 추천 시스템, 검색엔진)모바일 애플리케이션 (예: 이미지 인식, AR 응용 프로그램)중요성:응답 시간이 길면 사용자 경험이 나빠지고, 시스템 성능이 떨어진다고 인식된다.기업 서비스의 경우, 응답 지연은 수익 손실이나 사용자 이탈로 이어질 수 있다. 🤔 문제AI 모델을 운영하는 동안의 실행 효율성(runtime efficiency) 을 측정하는 지표는 무엇인가요?고객 만족도 점수 (CSAT, Customer satisfaction score)각 에폭(epoch..
📌 모델 학습(Training)이란?머신러닝 모델은 데이터를 통해 반복적으로 학습한다.이 과정에서 가중치(Weights)라는 값을 조정한다 → 이 가중치가 바로 모델이 학습한 내용이다.모델은 가중치를 계속 조정하여 예측 결과를 정답에 가깝게 만든다.🔁 반복 학습 (Iterative Training)한 번만 학습해서는 정답을 맞추기 어려우므로, 수백~수천 번 반복하면서 오류(Error)를 줄이는 방향으로 가중치를 바꾼다. 🔧 하이퍼파라미터 튜닝 (Hyperparameter Tuning)📌 하이퍼파라미터(Hyperparameter)란?머신 러닝 모델의 구조나 학습 방식을 정하는 외부 설정 값이다.학습률 (Learning rate)에폭 수 (Epochs)미니배치 크기 (Batch size)신경망 레이..
🧪 머신러닝 파이프라인 (Machine Learning Pipeline)머신러닝 파이프라인은 비즈니스 목표 → 데이터 준비 → 모델 훈련 → 배포 → 모니터링까지 이어지는 일련의 연결된 단계들이다.머신러닝 모델을 개발하면 계속 이 파이프라인 과정을 반복하기 때문에 라이프사이클(lifecycle)이라고 하기도 한다. 🔁 머신러닝 파이프라인 주요 단계 (요약)이 과정은 지속적으로 반복된다 → 모델 성능이 떨어지면 재훈련하거나 새로운 데이터로 개선해야 된다.단계설명1. 문제 정의 (Problem Definition)비즈니스 목표를 명확히 설정 (성공 기준, 측정 가능한 목표)2. 데이터 준비 (Data Preparation)적절한 훈련 데이터 확보 (품질, 접근성, 정합성 확인)3. 모델 선택 (Model..
찌르비
'클라우드(AWS)' 카테고리의 글 목록 (2 Page)