728x90
반응형
◇ 공부 기록용으로 작성하였으니 틀린 점, 피드백 주시면 감사하겠습니다 ◇
TL;DR
방대한 양의 데이터를 처리하기 위한 클라우드 빅 데이터 플랫폼
Amazon Elastic MapReduce
Amazon EMR
EMR은 빅데이터를 처리하고 분석하는 서비스이다.
- EMR을 통해 Apache Hadoop와 Apache Spark같은 오픈소스 프레임워크 사용가능하다.
- 다수의 서버를 통해 데이터를 분산처리하여 빠르고 효율적으로 petabyte급 데이터를 분석/처리해 준다.
- Elastic MapReduce의 "MapReduce"은 Google이 개발한 빅데이터 분산처리 프레임워크를 의미한다.
빅데이터 예시:
- 아마존의 고객의 구매 기록
- 우버의 실시간 교통 데이터
이러한 빅데이터는 하나의 컴퓨터로 처리할 수 있는 양이 아니다.
여러 개의 컴퓨터로 조금씩 처리를 분산하여 빠르고 효율적으로 결과를 도출 할 수 있다.
이러한 처리 방법을 분산처리라고 한다.
EMR의 구조
여러개의 서버를 통한 분산 처리하여 효율적으로 데이터를 처리한다.
분산처리를 위하여 EMR은 3종류의 노드(EC2 Instance)로 클러스터를 구성하고 있다.
- Master Node (마스터 노드):
- 클러스터 전체를 관리하는 노드.
- 코어노드 또는 태스크노드에 처리를 부여한다
- Core Node (코어 노드):
- 연산 처리를 실행하는 노드
- 데이터를 보관하는 파일시스템 HDFS(Hadoop Distributed File System)를 갖는다.
- Task Node (태스크 노드): (optional)
- 코어노드와 같이 연산처리를 한다.
- 파일시스템을 갖지 않는다. 연산처리 전용의 노드이다.
클러스트의 코어노드 또는 태스크노드는 수동 또는 자동으로 스케일링할 수 있다.
HDFS와 EMRFS
EMR은 파일 시스템으로 HDFS와 EMRFS를 사용할 수 있다.
- HDFS: Hadoop Distributed File System
- Hadoop의 파일 시스템이다.
- EMR에서 마스터노드와 코어노드에서 사용 가능.
- EMR 클러스터가 종료되면 HDFS의 데이터는 사라진다.
- EMRFS: EMR File System
- Amazon S3를 EMR 클러스터에서 파일 시스템으로 사용할 수 있도록 하는 기능.
- 데이터를 영원히 보관하여 EMR 클러스터가 종료되어도 데이터는 사리 지지 않는다.
- S3가 갖는 기능(데이터 암호화등)도 같이 사용가능.
🤨 SAA-C03 문제
Amazon EMR 클러스터에서 처리한 결과를 Amazon S3에 저장할 때 사용하는 기능은 무엇입니까?
- EBS
- EFS
- HDFS
- EMRFS
정답
더보기
정답. 4번
728x90
반응형
'클라우드(AWS)' 카테고리의 다른 글
[AWS] Batch란? 쉽게 개념 정리 (0) | 2024.06.21 |
---|---|
[AWS] Amazon Cognito란? 쉽게 특징 정리 (User Pool, Identity Pool, Adaptive Authentication) (0) | 2024.06.21 |
[AWS] Snow Family, DataSync, Storage Gateway의 차이점 쉽게 정리 (feat. S3 sync 명령어) (1) | 2024.06.17 |
[AWS] Amazon MQ란? 쉽게 개념 정리 (Message Broker, 메시지 브로커, ActiveMQ, RabbitMQ) (0) | 2024.06.14 |
[AWS] IoT Core란? 쉽게 특징 정리 (0) | 2024.06.11 |