Data Engineering

AWS Redshift 를 데이터 분석 파이프라인에서 사용하기

헐리 2024. 10. 22. 10:38

AWS Redshift 란

- AWS의 데이터웨어하우스 서비스

- OLAP성의  관계형 데이터베이스

- 완전 관리형, 페타바이트 규모, 엔터프라이즈 등급

 

구성

- PostgreSQl 베이스지만 OLAP 에 맞게 커스토마이징 됨

- MPP 구조 (병렬처리)

- Columnar (데이터 저장방식이 컬럼 기반)

 

OLTP 와 OLAP의 비교

  • OLTP에서 중요한것은 정합성이어서 정규화 작업이 많이 필요함
  • OLAP 성 업무에서는 목표가 분석이기 때문에 정규화 작업은 많이 필요없지만 분석용이기 때문에 모든 필요한 테이블이 모두 존재하는 것이 중요함(데이터의 중복이 어느정도 허용됨)
  • OLTP와 OLAP 의 스키마 설계 방식은 다를 수 있음 => OLAP도 관계형 데이터베이스기 때문에 스키마 설계가 필요함

 

데이터웨어하우스란?

승인되어 신뢰할 수 있는 기업의 과거 데이터 모음

- 여러 원본에서 온 비즈니스 데이터의 중앙 저장소

- 데이터 분석을 가능하게 하는 관계형 데이터베이스