성능RA3 노드 및 관리형 스토리지구체화된 뷰(materialized view)자동화된 성능 튜닝(vaccum)동시성 확장작업(워크로드 매니저 내의 서비스) Redshift 시작하기1. 권한 생성 및 role 생성2. redshift 클러스터 생성컴퓨터 노드 결정: RA3 노드 vs DC노드컴퓨터 노드는 슬라이스로 구성됨(슬라이스들이 병렬 처리함)슬라이스는 컴퓨터 노드 내의 물리적인 구분클러스터 스토리지 용량 = (노드당 스토리지) x (노드 수)리더 노드는 aws가 관리전체 데이터 크기 결정네트워크 설계파라미터 그룹 셋팅3. 데이터 적재(COPY)4. 쿼리 분산 방식-> 데이터 로드하는 방식에 따라서 성능 차이가 생김-> Broadcast 모션 지양하기 (redistribution 은 어느정도 일어날..
AWS Redshift 란- AWS의 데이터웨어하우스 서비스- OLAP성의 관계형 데이터베이스- 완전 관리형, 페타바이트 규모, 엔터프라이즈 등급 구성- PostgreSQl 베이스지만 OLAP 에 맞게 커스토마이징 됨- MPP 구조 (병렬처리)- Columnar (데이터 저장방식이 컬럼 기반) OLTP 와 OLAP의 비교OLTP에서 중요한것은 정합성이어서 정규화 작업이 많이 필요함OLAP 성 업무에서는 목표가 분석이기 때문에 정규화 작업은 많이 필요없지만 분석용이기 때문에 모든 필요한 테이블이 모두 존재하는 것이 중요함(데이터의 중복이 어느정도 허용됨)OLTP와 OLAP 의 스키마 설계 방식은 다를 수 있음 => OLAP도 관계형 데이터베이스기 때문에 스키마 설계가 필요함 데이터웨어하우스란?- 승인되..
데이터 카탈로그데이터의 스키마 정의 서비스- aws glue AWS GlueAWS 의 ETL서비스크롤러가 데이터 소스(원본)에서 스키마를 추론하여 정의하고 데이터 카탈로그에 등록(메타데이터 작성)해줌 크롤러는 S3의 파티션 구조를 자동으로 식별후처리로 csv파일을 형식이 지정된 데이터인 parquet으로 변환 작업 -> 두 스키마가 함께 존재 가능열 스토리지 형식으로 스캔 데이터 양을 줄여서 쿼리도 빠르고 비용 절감도 가능 AWS Athenapresto 기반 SQL 사용S3 데이터 직접 쿼리 가능 => 스캔 비용이 과금되기 때문에 파티셔닝이 중요Redshift 에서도 쿼리 가능 S3로 데이터 스토리지등록 및 lake formation 등록 예시1. S3버킷의 특정경로에 csv 파일이 있음2. AWS ..
빅데이터의 3요소velocityvolumevariety빅데이터 파이프라인 구축에는 여러가지 방법이 있음-> 왜할까? 데이터를 가지고 인사이트를 도출해서 비즈니스에 적용 (ex 매출증가) 빅데이터 저장의 솔루션그 중 한 방법은 data warehouse (ETL)다른 방법은 data lakehouse 데이터웨어하우스dw 는 일종의 관계형 데이터베이스(olap)E -> T -> DWtransformation 이 매우중요 (dw에 맞는데이터를 저장해야해서)정형화된 데이터를 분석할 수 있는 툴비정형 데이터를 분석하기에는 적합하지 않음 데이터레이크ELTraw data먼저 저장후 transformation 을 하기때문에 transformation 을 여러번 할 수 있음비정형 데이터 저장데이터 민주화 (원시 형태의 ..
Bedrock 이란Amazon 뿐만 아니라 Meta이나 Anthropic 같은 여러 회사의 다양한 파운데이션모델을 제공하는 완전 관리형 서비스 Bedrock 을 사용할 때 이점다양한 FM 에 대한 평가미세조정, 검색증강 생성(RAG) 등 과 같은 기술을 사용 가능서버리스로 인프라를 관리할 필요 없음AWS 서비스를 사용해서 생성형 AI 기능을 애플리케이션과 손쉽게 통합가능Bedrock 사용해보기1. Model AccessBedrock 을 사용하기 위해서 먼저 원하는 Base Model 을 사용 요청하기 2. PlaygroundPlayground 메뉴를 통해서 FM 으로 Chat, Text, Image 생성 등을 해보면서 기능과 사용성을 테스트 해볼 수 있음먼저 이렇게 모델을 선택한 후에이렇게 테스트를 해볼..
when i installed aws-cli with default install script that aws provides, the symbolic link is created at /usr/bin/aws. when i command 'which aws', it shows /bin/aws and i got error when executing aws cli So i want to execute the aws from /usr/bin/aws as default which awsls -l /bin/awsls -l /usr/bin/aws#If /bin/aws exists and is causing a conflict, you can remove or rename it.sudo rm /bin/aws#If /..
간단한 개요Container 를 AWS 위에서 돌릴때 AWS 의 Inbound 및 Outbound 네트워크 이외에도 고려해야 할 레벨의 네트워크가 존재한다.컨테이너의 주요 장점이 한 호스트에 여러개의 컨테이너를 올릴 수 있다는 것이기 때문에, 이 컨테이너들이 특정 호스트에서 어떤식의 네트워크를 사용할지 선택을 해야하기 때문이다. 간단한 설명Netwrok Mode설명Host- 가장 기본적인 네트워크 모드Bridge- 가상 네트워크 브릿지를 제공하여 호스트 서버와 컨테이너간의 네트워크에 레이어를 생성함AWSVPC- ECS 가 각각의 task 마다 ENI 를 생성하고 관리하여, 각 task 는 VPC 내에 자신의 프라이핏 IP가 생긴다. 간단한 장단점 Netwrok Mode 장점단점Host- 간단한 설정- ..
kafka connector kafka 토픽으로부터 데이터를 읽고 씀 checkpointing mechanism exactly once를 보장하기 위해서 offset을 checkpointing 하고 추적함 position configuration - setStartFromGroupOffsets: Flink는 컨슈머 그룹의 파티션들을 읽기 시작하고, kafka broker에 있는 offset을 커밋하는데, offset을 찾을 수 으면, auto.offset.reset 속성이 사용된다 - setStartFromEarliest(Latest): 이 모드에선 커밋된 offset들은 무시되고 시작 포시션으로 사용되지 않음 - job 이 실패해서 자동으로 복구하거나 savepoint 를 사용해서 복구하는 경우 sta..
오늘 기억에 남는 것!! -> 플링크 스냅샷에 아직 반영되지 않은 상태 수정은 임시적인 것으로 간주해야 한다 ABS 배경 1. 분산 스트리밍 프로세스에서 잠재적인 장애를 처리하려고 찍는 snapshot의 성능상 문제로 Asynchronous Barier Snapshotting (ABS) 이 나옴 -> 데이터플로우에 minimal record log를 적용 -> ABS 를 Flink 에 적용 2. 기존에 exactly one 에는 동기(synchronous) 스냅샷을 이용해서 실행을 멈춰야 되는 단점이 있으며, 처리되기 전의 메세지도 스냅샷에 포함된다는 것도 단점이었음 3. 그 후에 나온 방법들 (checkpointing, 비동기로 스냅샷 찍기)에 대한 아이디어를 확장함 Apache Flink 1. Fli..
Event Streaming 이란? 이벤트 소스로부터 이벤트 스트리밍의 형태로 실시간으로 데이터를 캡처하고, 이벤트 스트리밍을 나중에 사용할 수 있도록 영구적으로 저장한다. 이벤트 스트리밍을 처리하고 필요한 목적지로 라우팅한다. 이벤트 스트리밍은 옳은 정보가 적시에 옳바른 곳에 있도록 연속적 흐름과 데이터 해석을 보장한다. Kafka는 Event Streaming 플래폼이다 kafka는 이벤트 스트리밍을 Publish(wirte) 하고 Subscribe(Read)해서, 시스템들로부터 데이터를 계속적으로 가져오거나 내보낸다 kafka는 이벤트 스트리밍을 내구성있게 보관한다 kafka는 이벤트 스트리밍을 처리한다 Kafka는 어떻게 작동할까? kafka는 TCP로 소통하는 client 와 server로 구성..