[🤖머신러닝] 지도(Supervised), 비지도(Unsupervised), 강화(Reinforcement) 학습 쉽게 정리

클라우드(AWS)/AIF-C01

[🤖머신러닝] 지도(Supervised), 비지도(Unsupervised), 강화(Reinforcement) 학습 쉽게 정리

찌르비 2025. 4. 9. 22:59

🤖 대표적인 머신러닝 종류

🔵 Supervised Learning (교사있는 학습)
🔶 Unsupervised Learning (교사없는 학습)
🟢 Intermediate Learning (중간 학습)

🧠 요약 정리

학습 유형	문제 유형	예시
지도 학습	분류 (이진/다중)	이메일 스팸 여부, 암 유무, 문서 주제 분류
지도 학습	회귀	집값 예측, 키 예측
비지도 학습	군집화	고객 세그먼트, 웹 클릭 패턴
비지도 학습	이상 탐지	센서 오류, 사기 거래 탐지

🔵 1. 지도 학습 (Supervised Learning)

입력(input) 데이터에 정답(label, 라벨)이 같이 있는 데이터를 사용한다.

예시1: 물고기 사진에 "물고기"라는 라벨이 붙여있다.

예시2: 돌고래 사진에 "물고기 아님"이라는 라벨이 붙여있다.

(이를 통해 사진을 분류하는 머신 러닝 모델을 학습 시킬 수 있다)

😶‍🌫️ 핵심

머신러닝 모델은 이러한 학습 데이터(training data)를 사용해 입력(input)과 출력(output)의 관계를 배운다.

(학습 데이터를 통해, input과 output을 학습한다는 점이 중요하다)

❌ 단점

학습할 때, 모든 데이터에 라벨이 필요하기 때문에, 사람이 직접 데이터를 라벨링해줘야 한다.

(상당히 귀찮은 작업이다. 그래서 라벨링만 하는 알바가 많다)

AWS에서 라벨링 해결 방법:
Amazon SageMaker Ground Truth + Amazon Mechanical Turk로 외부 인력을 활용해서 라벨링 가능

🔦 Supervised Learning을 사용하는 대표적인 문제

Classification(분류)과 Regression(회귀)

Classification(분류) = 종류를 나누어서 예측
Regression(회귀) = 연속 된 값의 예측

자세한 내용👉 https://jibinary.tistory.com/710

[ML] 머신러닝 문제 유형 (분류와 회귀 문제: Classification, Regression)

머신 러닝을 처음 배울 때, 대표적인 문제 유형 2 가지를 배운다.. 1. Classification(분류) 문제Classification는 주어진 데이터를 특정 그룹(카테고리)으로 분류하는 문제를 말한다✅ 예시) 아주 쉽게 이

jibinary.tistory.com

🔶 2. 비지도 학습 (Unsupervised Learning)

라벨이 없는 데이터를 사용해서 머신러닝 모델을 학습하는 방식이다.

입력(input) 데이터에 대한 정답(라벨)이 없이 학습한다.

(정답이 없기 때문에) 제공된 데이터 자체의 구조나 패턴을 찾아 학습하는 것이 목적이다.

https://www.mathworks.com/discovery/unsupervised-learning.html

비지도 학습을 통해 주로 데이터의 패턴(pattern), 군집(cluster), 이상값(anomaliy)을 찾을 수 있다.

Clustering(예: k-means)이라는 방법을 사용하여 데이터의 특징별로 그룹화 시킨다.

https://en.wikipedia.org/wiki/Supervised_learning

🔦 특징

라벨링이 필요 없어 데이터 준비가 더 쉬울 수 있다.
정답 라벨이 없기 때문에 모델이 학습한 내용을 개발자가 직접 해석해야 한다.

🟢 3. 중간 학습 (Intermediate Learning)

지도 학습과 비지도 학습 외에 학습 방법.

대표적으로 Reinforcement Learning(강화 학습)와 Semi-supervised learning (반지도 학습)가 있다.

🟢 3.1 강화 학습 (Reinforcement Learning)

강화 학습은 AI 에이전트(agent)가 어떤 행동을 해야 "가장 좋은 결과를 얻을 수 있을까?"를 배우는 방법이다.

여기서 좋은 결과란, AI에게 보상(reward)이라는 값을 부여해서 측정이 가능하도록 한다.

https://en.wikipedia.org/wiki/Reinforcement_learning

즉, AI 에이전트가 환경(Environment) 속에서 다양한 행동(Action)을 테스트 하여, 보상(Reward)을 받거나 잃으면서 어떤 행동이 좋은지 스스로 학습하는 방식이다.

좋은 결과를 내기위해서 보상을 극대화하는 방향으로 스스로 행동을 바꾸면서 학습한다.

https://www.youtube.com/watch?v=WXuK6gekU1Y

예시	알파고(AlphaGo)	AWS DeepRacer (자율 주행 미니카)
에이전트(agent)	바둑을 두는 인공지능 (AlphaGo)	자동차
환경(environment)	바둑판 (19x19 바둑판)	트랙
행동(action)	한 수 놓기 (돌을 하나 두는 것)	앞으로 이동
목표(goal)	바둑에서 승리하기	코스를 빠르게 완주하기

🟢 3.2 반지도 학습 (Semi-Supervised Learning)

지도 학습과 비지도 학습의 반반.

마치 양념반 후라이드반, 짬짜면과 같은 느낌

소량의 "라벨이 있는 데이터" + 대량의 "라벨이 없는 데이터"를 함께 사용해서 학습하는 방법

예시: 🐱고양이/강아지 분류 모델

🖼️🖇️ 라벨된 데이터: 사진 100장 + 라벨(예: “고양이” 또는 “강아지”)
🖼️❌ 라벨 없는 데이터: 사진 1,000장

100개의 라벨 데이터를 바탕으로 먼저 기초 모델을 만든 뒤, 나머지 1,000장의 이미지도 활용해서 모델을 개선해요.