https://www.sqlshack.com/managing-snapshots-in-aws-redshift-clusters/
백업 스케줄(예: 8시간마다, 12시간마다)은 사용자가 직접 설정할 수 있으며, 스냅샷은 일정 시간이 지나면 자동으로 삭제된다.
스냅샷은 수동으로 생성할 수 있다. 수동으로 생성한 스냅샷은 저장 기간을 무기한(indefinitely)으로 설정할 수도 있다.
스냅샷은 다른 리전으로 저장할 수도 있다. 이를 "Cross Region Snapshot"이라고 한다.
리전을 넘나들기 때문에 데이터 전송 비용이 추가로 발생하지만, 재해에 대비하거나 다른 리전에서 Redshift 클러스터를 재구축하려는 경우에 유용하게 사용할 수 있다.
🔩 Redshift Spectrum
기존의 Redshift에서는 데이터가 축적되고 대용량화되면 S3에 있는 데이터를 Redshift로 로드하는 데 시간이 많이 걸렸다. 이 문제를 해결한 것이 Redshift Spectrum이다.
Redshift Spectrum은 S3에 있는 데이터를 Redshift로 가져오는 것이 아니라, S3의 데이터를 외부 테이블로 참조할 수 있게 해주는 기능이다.
S3의 데이터(외부 테이블)는 여러 Redshift 클러스터에서 접근할 수 있으며, Redshift 내부 데이터와 S3 상의 데이터에 대해 쿼리를 실행할 수 있다
사용 빈도가 낮은 데이터를 S3에 보관함으로써 Redshift의 디스크 공간을 절약할 수 있다는 장점도 있다.
🔩 Redshift ML
Redshift ML은 Redshift 내에서 기계 학습 모델을 생성, 훈련, 배포하고, SQL을 사용하여 대규모 데이터 세트에 대해 예측 분석을 수행하는 서비스이다.
기존에는 데이터베이스의 데이터를 사용한 기계 학습을 위해 Amazon SageMaker 같은 기계 학습 서비스나 Python과 같은 프로그래밍 언어의 지식이 필요했지만, Redshift ML의 등장으로 SQL에 익숙한 데이터베이스 개발자도 기계 학습 프로세스를 구축할 수 있게 되었다.
또한 Redshift 내에서 SQL만으로 기계 학습을 완료할 수 있어 작업 효율성을 높일 수 있다.
🔩 Redshift Serverless
Redshift Serverless는 데이터 웨어하우스의 인프라 관리를 없애고, 자동 확장 및 사용량 기반 과금제로 유연하고 비용 효율적인 데이터 분석을 가능하게 하는 서비스이다.
클러스터나 노드 관리는 AWS에서 수행하므로 운영이 간소화되고, 손쉽게 데이터 분석을 시작할 수 있다.