성능RA3 노드 및 관리형 스토리지구체화된 뷰(materialized view)자동화된 성능 튜닝(vaccum)동시성 확장작업(워크로드 매니저 내의 서비스) Redshift 시작하기1. 권한 생성 및 role 생성2. redshift 클러스터 생성컴퓨터 노드 결정: RA3 노드 vs DC노드컴퓨터 노드는 슬라이스로 구성됨(슬라이스들이 병렬 처리함)슬라이스는 컴퓨터 노드 내의 물리적인 구분클러스터 스토리지 용량 = (노드당 스토리지) x (노드 수)리더 노드는 aws가 관리전체 데이터 크기 결정네트워크 설계파라미터 그룹 셋팅3. 데이터 적재(COPY)4. 쿼리 분산 방식-> 데이터 로드하는 방식에 따라서 성능 차이가 생김-> Broadcast 모션 지양하기 (redistribution 은 어느정도 일어날..
AWS Redshift 란- AWS의 데이터웨어하우스 서비스- OLAP성의 관계형 데이터베이스- 완전 관리형, 페타바이트 규모, 엔터프라이즈 등급 구성- PostgreSQl 베이스지만 OLAP 에 맞게 커스토마이징 됨- MPP 구조 (병렬처리)- Columnar (데이터 저장방식이 컬럼 기반) OLTP 와 OLAP의 비교OLTP에서 중요한것은 정합성이어서 정규화 작업이 많이 필요함OLAP 성 업무에서는 목표가 분석이기 때문에 정규화 작업은 많이 필요없지만 분석용이기 때문에 모든 필요한 테이블이 모두 존재하는 것이 중요함(데이터의 중복이 어느정도 허용됨)OLTP와 OLAP 의 스키마 설계 방식은 다를 수 있음 => OLAP도 관계형 데이터베이스기 때문에 스키마 설계가 필요함 데이터웨어하우스란?- 승인되..
데이터 카탈로그데이터의 스키마 정의 서비스- aws glue AWS GlueAWS 의 ETL서비스크롤러가 데이터 소스(원본)에서 스키마를 추론하여 정의하고 데이터 카탈로그에 등록(메타데이터 작성)해줌 크롤러는 S3의 파티션 구조를 자동으로 식별후처리로 csv파일을 형식이 지정된 데이터인 parquet으로 변환 작업 -> 두 스키마가 함께 존재 가능열 스토리지 형식으로 스캔 데이터 양을 줄여서 쿼리도 빠르고 비용 절감도 가능 AWS Athenapresto 기반 SQL 사용S3 데이터 직접 쿼리 가능 => 스캔 비용이 과금되기 때문에 파티셔닝이 중요Redshift 에서도 쿼리 가능 S3로 데이터 스토리지등록 및 lake formation 등록 예시1. S3버킷의 특정경로에 csv 파일이 있음2. AWS ..
빅데이터의 3요소velocityvolumevariety빅데이터 파이프라인 구축에는 여러가지 방법이 있음-> 왜할까? 데이터를 가지고 인사이트를 도출해서 비즈니스에 적용 (ex 매출증가) 빅데이터 저장의 솔루션그 중 한 방법은 data warehouse (ETL)다른 방법은 data lakehouse 데이터웨어하우스dw 는 일종의 관계형 데이터베이스(olap)E -> T -> DWtransformation 이 매우중요 (dw에 맞는데이터를 저장해야해서)정형화된 데이터를 분석할 수 있는 툴비정형 데이터를 분석하기에는 적합하지 않음 데이터레이크ELTraw data먼저 저장후 transformation 을 하기때문에 transformation 을 여러번 할 수 있음비정형 데이터 저장데이터 민주화 (원시 형태의 ..
kafka connector kafka 토픽으로부터 데이터를 읽고 씀 checkpointing mechanism exactly once를 보장하기 위해서 offset을 checkpointing 하고 추적함 position configuration - setStartFromGroupOffsets: Flink는 컨슈머 그룹의 파티션들을 읽기 시작하고, kafka broker에 있는 offset을 커밋하는데, offset을 찾을 수 으면, auto.offset.reset 속성이 사용된다 - setStartFromEarliest(Latest): 이 모드에선 커밋된 offset들은 무시되고 시작 포시션으로 사용되지 않음 - job 이 실패해서 자동으로 복구하거나 savepoint 를 사용해서 복구하는 경우 sta..
오늘 기억에 남는 것!! -> 플링크 스냅샷에 아직 반영되지 않은 상태 수정은 임시적인 것으로 간주해야 한다 ABS 배경 1. 분산 스트리밍 프로세스에서 잠재적인 장애를 처리하려고 찍는 snapshot의 성능상 문제로 Asynchronous Barier Snapshotting (ABS) 이 나옴 -> 데이터플로우에 minimal record log를 적용 -> ABS 를 Flink 에 적용 2. 기존에 exactly one 에는 동기(synchronous) 스냅샷을 이용해서 실행을 멈춰야 되는 단점이 있으며, 처리되기 전의 메세지도 스냅샷에 포함된다는 것도 단점이었음 3. 그 후에 나온 방법들 (checkpointing, 비동기로 스냅샷 찍기)에 대한 아이디어를 확장함 Apache Flink 1. Fli..
Event Streaming 이란? 이벤트 소스로부터 이벤트 스트리밍의 형태로 실시간으로 데이터를 캡처하고, 이벤트 스트리밍을 나중에 사용할 수 있도록 영구적으로 저장한다. 이벤트 스트리밍을 처리하고 필요한 목적지로 라우팅한다. 이벤트 스트리밍은 옳은 정보가 적시에 옳바른 곳에 있도록 연속적 흐름과 데이터 해석을 보장한다. Kafka는 Event Streaming 플래폼이다 kafka는 이벤트 스트리밍을 Publish(wirte) 하고 Subscribe(Read)해서, 시스템들로부터 데이터를 계속적으로 가져오거나 내보낸다 kafka는 이벤트 스트리밍을 내구성있게 보관한다 kafka는 이벤트 스트리밍을 처리한다 Kafka는 어떻게 작동할까? kafka는 TCP로 소통하는 client 와 server로 구성..
ZOOKEEPER 는 왜 인스턴스가 여러개 올라갈까?? 를 알아보기 위해 공부하기!! Zookeeper: 분산된 어플리케이션들의 분산 코디네이터 서비스 zookeeper는 분산된 어플리케이션들에 사용되는 분산되어 있고, 오픈소스인 코디네이터로, 분산된 어플리케이션들이 동기화된 고레벨의 서비스, 구성 유지, 그룹, 네이밍을 할 수 있도록 한다. 프로그래밍하기 쉽게 되어 있으며 친숙한 트리구조의 파일시스템의 데이터 모델을 사용한다. zookeeper의 목적은 분산 어플리케이션들의 코디네이터 서비스 도입 책임을 완화시키는 것에 있다. 예를 들어 여러개 노드에서 프로세스를 하는 분산된 어플리케이션들은 부분적으로 실패할 가능성을 고려해야 하는데, 이러한 실패를 효율적으로 처리하기 위해서 필요하다. Design G..