성능RA3 노드 및 관리형 스토리지구체화된 뷰(materialized view)자동화된 성능 튜닝(vaccum)동시성 확장작업(워크로드 매니저 내의 서비스) Redshift 시작하기1. 권한 생성 및 role 생성2. redshift 클러스터 생성컴퓨터 노드 결정: RA3 노드 vs DC노드컴퓨터 노드는 슬라이스로 구성됨(슬라이스들이 병렬 처리함)슬라이스는 컴퓨터 노드 내의 물리적인 구분클러스터 스토리지 용량 = (노드당 스토리지) x (노드 수)리더 노드는 aws가 관리전체 데이터 크기 결정네트워크 설계파라미터 그룹 셋팅3. 데이터 적재(COPY)4. 쿼리 분산 방식-> 데이터 로드하는 방식에 따라서 성능 차이가 생김-> Broadcast 모션 지양하기 (redistribution 은 어느정도 일어날..
AWS Redshift 란- AWS의 데이터웨어하우스 서비스- OLAP성의 관계형 데이터베이스- 완전 관리형, 페타바이트 규모, 엔터프라이즈 등급 구성- PostgreSQl 베이스지만 OLAP 에 맞게 커스토마이징 됨- MPP 구조 (병렬처리)- Columnar (데이터 저장방식이 컬럼 기반) OLTP 와 OLAP의 비교OLTP에서 중요한것은 정합성이어서 정규화 작업이 많이 필요함OLAP 성 업무에서는 목표가 분석이기 때문에 정규화 작업은 많이 필요없지만 분석용이기 때문에 모든 필요한 테이블이 모두 존재하는 것이 중요함(데이터의 중복이 어느정도 허용됨)OLTP와 OLAP 의 스키마 설계 방식은 다를 수 있음 => OLAP도 관계형 데이터베이스기 때문에 스키마 설계가 필요함 데이터웨어하우스란?- 승인되..
데이터 카탈로그데이터의 스키마 정의 서비스- aws glue AWS GlueAWS 의 ETL서비스크롤러가 데이터 소스(원본)에서 스키마를 추론하여 정의하고 데이터 카탈로그에 등록(메타데이터 작성)해줌 크롤러는 S3의 파티션 구조를 자동으로 식별후처리로 csv파일을 형식이 지정된 데이터인 parquet으로 변환 작업 -> 두 스키마가 함께 존재 가능열 스토리지 형식으로 스캔 데이터 양을 줄여서 쿼리도 빠르고 비용 절감도 가능 AWS Athenapresto 기반 SQL 사용S3 데이터 직접 쿼리 가능 => 스캔 비용이 과금되기 때문에 파티셔닝이 중요Redshift 에서도 쿼리 가능 S3로 데이터 스토리지등록 및 lake formation 등록 예시1. S3버킷의 특정경로에 csv 파일이 있음2. AWS ..
빅데이터의 3요소velocityvolumevariety빅데이터 파이프라인 구축에는 여러가지 방법이 있음-> 왜할까? 데이터를 가지고 인사이트를 도출해서 비즈니스에 적용 (ex 매출증가) 빅데이터 저장의 솔루션그 중 한 방법은 data warehouse (ETL)다른 방법은 data lakehouse 데이터웨어하우스dw 는 일종의 관계형 데이터베이스(olap)E -> T -> DWtransformation 이 매우중요 (dw에 맞는데이터를 저장해야해서)정형화된 데이터를 분석할 수 있는 툴비정형 데이터를 분석하기에는 적합하지 않음 데이터레이크ELTraw data먼저 저장후 transformation 을 하기때문에 transformation 을 여러번 할 수 있음비정형 데이터 저장데이터 민주화 (원시 형태의 ..