[Re:Invent2022] Amazon Aurora Zero-ETL 세션 후기

지난 11월26일부터 12월3일까지 AWS 에서 진행하는 Re:Invent 컨퍼런스에 참석했다.
장소는 라스베거스에서 진행되었으며, 여러 호텔에서 다양한 세션들이 진행되었다.
이번 키노트에서 발표된 새로운 기능인 Zero-ETL 에 관한 세션에 참석한 후기 및 요약을 공유해보려고 한다.
참석했던 세션명은 Enabling operational analytics with Amazon (Analytics (Zero ETL)) 였다.

요약

  • 기존 Aurora -> Redshift로 데이터 파이프라인을 구성할 필요 없이, Pipeline을 통합해서 제공
  • 현재 Preview 단계로 us-east-1 버지니아 리전에서 테스트 가능(https://pages.awscloud.com/AmazonAurora-zeroETL-AmazonRedshift-preview.html)
  • 현재는 Aurora MySQL 8.0, Aurora Version3 만 지원
  • 스토리지 레벨에서 데이터가 복사되어 Redshift로 저장됨
  • 데이터를 필터해서 저장하는 것은 현재 불가능
  • 목표 레이턴시는 10s 이내
  • Aurora Serverless <> Redshift Serverless 지원

Zero-ETL 서비스 소개

11월 29일 공식 홈에 소개되었다.
https://aws.amazon.com/ko/about-aws/whats-new/2022/11/amazon-aurora-zero-etl-integration-redshift/

Redshift에서 near real-time 분석을 할 수 있도록 Aurora와 Redshift간의 Integration을 지원한다.

스토리지 레이어에서 복제가 이루어지고, Analytics는 Redshift를 이용해서 진행하는 구조이다.
결국 Redshift를 더 잘 쓸 수 있도록 해주는 하나의 장치가 더 생긴 것이다.

E2E Serverless

일반 Aurora 뿐만 아니라 Aurora Serverless에서 Redshift Serverless 도 지원하기 때문에, 더 쉽게 서버리스 서비스들로 DB, Data Warehouse 통합이 가능하다.

아키텍처

기존 Zero-ETL이 없이 Data Pipeline을 구축하는 경우 아래의 예시처럼 복잡한 파이프라인을 구성하게 되지만, 박스쳐진 부분이 Zero-ETL로 대체되게 되는 것이다.

스토리지 레이어 수준의 통합

Aurora에서 Redshift로 데이터가 이동될 때, 스토리지 Layer 수준에서 작업이 이루어지며, CDC(change data capture) Streaming을 통해 Aurora Storage -> Redshift Storage로 복제가 된다.

스토리지 레벨에서 자동화된 모니터링과 복구가 진행되고, 필요한 경우 Reseed가 수행된다.

스토리지 노드에 의해 백그라운드에서 백업이 진행되며, 성능이나 가용성에는 영향이 없다고 한다.
각각의 세그먼트에 대해 스냅샷이 병렬로 수행된다.

CDC의 경우에도 기존 빈로그가 아닌 Enhanced Binlog를 사용한다고 한다. 차이점은 트랜잭션이 끝나는 걸 기다리지 않고, 빈로그 이벤트를 보내는 점이다. 트랜잭션을 기다리는 대신 바로바로 이벤트를 보내게 되면서, 트랜잭션이 종료된 후 이벤트를 한번에 보내는 시간이 감소된 걸로 보인다.

마무리

요약하자면

  1. 페타바이트급의 트랜잭션 데이터를 준 실시간 분석을 위해 Amazon Redshift 를 사용할 수 있도록 하는 완전 관리형 Aurora의 기능이다.
  2. Aurora 에 트랜잭션 데이터가 기록된 후 수 초 이내 Redshift에서 데이터를 액세스 가능해진다.
  3. 트랜잭션 데이터에 대해 준 실시간 액세스를 가지게 됨으로써, 고객들은 Redshift의 분석, 머신러닝 기능들을 이용해 인사이트를 얻을 수 있게된다.

세션을 들은 소감

일단 기존에 Aurora의 Read Replica를 이용해 분석쿼리를 수행하던 것을 Redshift와 Zero-ETL을 이요하면 좀 더 편하게, 또 성능이나 가용성 이슈없이 수행할 수 있을 것 같다.
다만 현재 프리뷰 기능이고, MySQL 8.0만을 지원하고 있어서 당장 적용은 어렵다.
GA 일정에 대해서도 아직 확실하지 않지만 내년 7월 중에 발표가 될 것 같다고 했는데, 내년에 GA가 되면 PoC를 한번 해볼만 한 것 같다.

Aurora, Redshift 두개의 서비스를 통합할 수 있도록 도와주는 서비스라.. 각각의 서비스에 대한 자랑아닌 설명이 중간중간 있었다. 아마존 생태계에 종속되도록 편리한 서비스들을 출시하고 있는데, 항상 비용이 문제인 것 같다.
효율적으로 쓸수만 있다면 참 좋을 것 같다.