Data Engineering
DataLake 가 무엇인가
헐리
2024. 10. 15. 10:23
빅데이터의 3요소
- velocity
- volume
- variety
빅데이터 파이프라인 구축에는 여러가지 방법이 있음
-> 왜할까? 데이터를 가지고 인사이트를 도출해서 비즈니스에 적용 (ex 매출증가)
빅데이터 저장의 솔루션
- 그 중 한 방법은 data warehouse (ETL)
- 다른 방법은 data lakehouse
데이터웨어하우스
- dw 는 일종의 관계형 데이터베이스(olap)
- E -> T -> DW
- transformation 이 매우중요 (dw에 맞는데이터를 저장해야해서)
- 정형화된 데이터를 분석할 수 있는 툴
- 비정형 데이터를 분석하기에는 적합하지 않음
데이터레이크
- ELT
- raw data
- 먼저 저장후 transformation 을 하기때문에 transformation 을 여러번 할 수 있음
- 비정형 데이터 저장
- 데이터 민주화 (원시 형태의 데이터를 누구나 사용가능)
- 더 짧은 시간동안 많은 원본 데이터를 분석 가능
데이터레이크 수집과정
데이터 원본 -> 데이터 수집 -> 데이터 스토어 -> 카탈로그및 처리 -> 검색 및 분석 -> 시각화