참고: https://jibinary.tistory.com/833
[AWS] Glue란? ETL 서비스 아주 쉽게 정리 (Crawler, Data Catalog, Job)
AWS Glue란?(AWS Managed) Serverless의 ETL(Extract, Transform, Load) 서비스이다.AWS Glue는 ETL 서비스로서 대규모 데이터 처리에 효과적이다. AWS Glue 특징 정리🔢 ETL(Extract, Transform, Load) 서비스특히 대량의 데이
jibinary.tistory.com

Glue Job (잡) = ETL Job
Glue Job = ETL 수행
Glue에서 데이터를 읽고(Extract), 변환(Transform)하며, 다시 저장(Load)하는 ETL 작업 단위
Data Source → Glue Job → Data Target

📌 Glue Job 역할
- 데이터 소스에서 데이터를 읽고
- 필요한 변환(Transform)을 수행한 뒤
- 데이터 타겟에 저장
데이터 소스 : S3, RDS, DynamoDB 등
데이터 타겟 : S3, Redshift, RDS 등
📌 Glue Job 특징
Serverless(서버리스):
별도의 서버를 띄우지 않아도 Glue가 자동으로 실행 환경 생성·실행·종료
→ 서버 관리 불필요
→ 사용자는 코드를 작성하거나 Glue Studio에서 ETL 로직을 설정하기만 하면 됨.
유연한 스케일링:
Job이 실행되는 리소스 (예: DPU/Worker 등) 수에 따라 자동 확장 (대규모 데이터도 처리 가능)

📌 Glue Job 구성 요소
- Job Script(스크립트): ETL 로직을 담은 PySpark(Python) / Scala (Spark) 코드
- IAM Role: 데이터 소스(S3, RDS 등)에 접근하기 위한 권한
- 사용할 데이터의 위치(예: S3, RDS 등)
- Job Type(실행 환경): Spark, Python Shell, Streaming 중 선택
- Worker Type / 수량: Job이 실행되는 리소스 (예: DPU/Worker 등)
- Job Bookmark: 이전 실행 상태를 저장해 증분 처리 가능
- Trigger: Job 실행 조건 (수동 실행, 스케줄, 이벤트 기반 등)

📌 Data Catalog와 연동
Glue Crawler로 만든 Data Catalog의 테이블을 읽어서 ETL 처리가 가능하다.
Crawler → Data Catalog → Job
Glue Job → S3 접근
Glue Job이 S3 Bucket에서 데이터 가져오게 하기 위해서 설정해야 되는 것
- VPC 미지정 → 인터넷 접근 가능
- VPC 지정 → VPC 네트워크 내부 실행, (다른 서비스 접근 시 Endpoint 필요)
Glue Job (VPC) → Security Group → Route Table → Gateway Endpoint → S3
Glue Job
- VPC 내에서 실행되는지 확인
- VPC에 연결된 Security Group 확인 (Inbound 및 Outbound)
VPC Gateway Endpoint → S3
- VPC에서 S3에 가기 위한 Gateway Endpoint 생성 여부 확인
- VPC Route Table에 Endpoint 라우팅 포함 여부 확인
권한
- Glue Job에 올바른 IAM Role이 연결되어 있는지 확인 (특정 버킷에 s3:GetObject, s3:PutObject)
🤔 문제

Data Engineer가 AWS Glue Job을 설정하여 Amazon S3 Bucket에서 데이터를 읽으려고 합니다.
Data Engineer는 필요한 AWS Glue Connection Details와 IAM Role을 구성했습니다.
그러나 Glue Job을 실행했을 때, Amazon S3 VPC Gateway Endpoint에 문제가 있다는 Error Message를 받았습니다.
Data Engineer는 이 Error를 해결하고 Glue Job이 S3 Bucket에 연결되도록 해야 합니다.
- AWS Glue Security Group을 업데이트하여 Amazon S3 VPC Gateway Endpoint에서 들어오는 Inbound Traffic을 허용한다.
- S3 Bucket Policy를 구성하여 AWS Glue Job이 S3 Bucket에 접근할 수 있도록 명시적으로 Permission을 부여한다.
- AWS Glue Job Code를 검토하여 AWS Glue Connection Details에 Fully Qualified Domain Name(FQDN)이 포함되어 있는지 확인한다.
- VPC Route Table에 Amazon S3 VPC Gateway Endpoint를 위한 Inbound 및 Outbound Route가 포함되어 있는지 확인한다.
정답
정답. 4번
[상황]
Glue Job이 VPC 내부에서 실행됨
S3 접근 시 VPC Gateway Endpoint를 통해 접근하려고 하는데 오류 발생
1번 오답
Glue Security Group의 Inbound Traffic를 고려할 필요가 없음. Glue에서 s3에 접근하려는 것이기 때문에 Inbound는 백퍼 오답. 오히려 Outbound Traffic이라고 했다면 더 헷갈릴 문제이다.
2번 오답
Amazon S3 VPC Gateway Endpoint에 문제가 있다는 Error Message였기 때문에 연관이 없다
3번 오답
S3 접근 관련 문제와 직접적 상관 없음 → 틀림
'클라우드(AWS) > DEA-C01' 카테고리의 다른 글
| [AWS] Glue Workflows란? 쉽게 정리 (0) | 2025.10.08 |
|---|---|
| [AWS] Data Mesh란? 아주 쉽게 정리 (Data Lake, Data Warehouse와 차이점) (0) | 2025.10.07 |
| [AWS] Data Exchange란? 아주 쉽게 정리 (외부 데이터를 구독하여 사용하는 서비스) (0) | 2025.10.06 |
| [AWS] Lake Formation란? 쉽게 정리 (데이터 레이크를 만드는 서비스, Data Lake) (0) | 2024.08.17 |