티스토리 뷰
빅데이터의 3요소
- velocity
- volume
- variety
빅데이터 파이프라인 구축에는 여러가지 방법이 있음
-> 왜할까? 데이터를 가지고 인사이트를 도출해서 비즈니스에 적용 (ex 매출증가)
빅데이터 저장의 솔루션
- 그 중 한 방법은 data warehouse (ETL)
- 다른 방법은 data lakehouse
데이터웨어하우스
- dw 는 일종의 관계형 데이터베이스(olap)
- E -> T -> DW
- transformation 이 매우중요 (dw에 맞는데이터를 저장해야해서)
- 정형화된 데이터를 분석할 수 있는 툴
- 비정형 데이터를 분석하기에는 적합하지 않음
데이터레이크
- ELT
- raw data
- 먼저 저장후 transformation 을 하기때문에 transformation 을 여러번 할 수 있음
- 비정형 데이터 저장
- 데이터 민주화 (원시 형태의 데이터를 누구나 사용가능)
- 더 짧은 시간동안 많은 원본 데이터를 분석 가능
데이터레이크 수집과정
데이터 원본 -> 데이터 수집 -> 데이터 스토어 -> 카탈로그및 처리 -> 검색 및 분석 -> 시각화
'Data Engineering' 카테고리의 다른 글
AWS Redshift 를 데이터 분석 파이프라인에서 사용하기 (0) | 2024.10.22 |
---|---|
데이터 카탈로그란 (AWS Glue, AWS Lake Formation) (1) | 2024.10.15 |
[Flink] Kafka connector (0) | 2022.09.18 |
[Flink] 플링크의 스냅샷 생성 (0) | 2022.09.18 |
[Kafka] 카프카 overview & AWS MSK, Kinesis (0) | 2022.09.12 |