티스토리 뷰

Data Engineering

DataLake 가 무엇인가

헐리 2024. 10. 15. 10:23

빅데이터의 3요소

  • velocity
  • volume
  • variety

빅데이터 파이프라인 구축에는 여러가지 방법이 있음

-> 왜할까? 데이터를 가지고 인사이트를 도출해서 비즈니스에 적용 (ex 매출증가)

 

빅데이터 저장의 솔루션

  • 그 중 한 방법은 data warehouse (ETL)
  • 다른 방법은 data lakehouse

 

데이터웨어하우스

  • dw 는 일종의 관계형 데이터베이스(olap)
    • E -> T -> DW
    • transformation 이 매우중요 (dw에 맞는데이터를 저장해야해서)
    • 정형화된 데이터를 분석할 수 있는 툴
    • 비정형 데이터를 분석하기에는 적합하지 않음

 

데이터레이크

  • ELT
  • raw data
  • 먼저 저장후 transformation 을 하기때문에 transformation 을 여러번 할 수 있음
  • 비정형 데이터 저장
  • 데이터 민주화 (원시 형태의 데이터를 누구나 사용가능)
  • 더 짧은 시간동안 많은 원본 데이터를 분석 가능

 

데이터레이크 수집과정

데이터 원본 -> 데이터 수집 -> 데이터 스토어 -> 카탈로그및 처리 -> 검색 및 분석 -> 시각화

 

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함