데이터 카탈로그데이터의 스키마 정의 서비스- aws glue AWS GlueAWS 의 ETL서비스크롤러가 데이터 소스(원본)에서 스키마를 추론하여 정의하고 데이터 카탈로그에 등록(메타데이터 작성)해줌 크롤러는 S3의 파티션 구조를 자동으로 식별후처리로 csv파일을 형식이 지정된 데이터인 parquet으로 변환 작업 -> 두 스키마가 함께 존재 가능열 스토리지 형식으로 스캔 데이터 양을 줄여서 쿼리도 빠르고 비용 절감도 가능 AWS Athenapresto 기반 SQL 사용S3 데이터 직접 쿼리 가능 => 스캔 비용이 과금되기 때문에 파티셔닝이 중요Redshift 에서도 쿼리 가능 S3로 데이터 스토리지등록 및 lake formation 등록 예시1. S3버킷의 특정경로에 csv 파일이 있음2. AWS ..
빅데이터의 3요소velocityvolumevariety빅데이터 파이프라인 구축에는 여러가지 방법이 있음-> 왜할까? 데이터를 가지고 인사이트를 도출해서 비즈니스에 적용 (ex 매출증가) 빅데이터 저장의 솔루션그 중 한 방법은 data warehouse (ETL)다른 방법은 data lakehouse 데이터웨어하우스dw 는 일종의 관계형 데이터베이스(olap)E -> T -> DWtransformation 이 매우중요 (dw에 맞는데이터를 저장해야해서)정형화된 데이터를 분석할 수 있는 툴비정형 데이터를 분석하기에는 적합하지 않음 데이터레이크ELTraw data먼저 저장후 transformation 을 하기때문에 transformation 을 여러번 할 수 있음비정형 데이터 저장데이터 민주화 (원시 형태의 ..
Bedrock 이란Amazon 뿐만 아니라 Meta이나 Anthropic 같은 여러 회사의 다양한 파운데이션모델을 제공하는 완전 관리형 서비스 Bedrock 을 사용할 때 이점다양한 FM 에 대한 평가미세조정, 검색증강 생성(RAG) 등 과 같은 기술을 사용 가능서버리스로 인프라를 관리할 필요 없음AWS 서비스를 사용해서 생성형 AI 기능을 애플리케이션과 손쉽게 통합가능Bedrock 사용해보기1. Model AccessBedrock 을 사용하기 위해서 먼저 원하는 Base Model 을 사용 요청하기 2. PlaygroundPlayground 메뉴를 통해서 FM 으로 Chat, Text, Image 생성 등을 해보면서 기능과 사용성을 테스트 해볼 수 있음먼저 이렇게 모델을 선택한 후에이렇게 테스트를 해볼..
when i installed aws-cli with default install script that aws provides, the symbolic link is created at /usr/bin/aws. when i command 'which aws', it shows /bin/aws and i got error when executing aws cli So i want to execute the aws from /usr/bin/aws as default which awsls -l /bin/awsls -l /usr/bin/aws#If /bin/aws exists and is causing a conflict, you can remove or rename it.sudo rm /bin/aws#If /..
간단한 개요Container 를 AWS 위에서 돌릴때 AWS 의 Inbound 및 Outbound 네트워크 이외에도 고려해야 할 레벨의 네트워크가 존재한다.컨테이너의 주요 장점이 한 호스트에 여러개의 컨테이너를 올릴 수 있다는 것이기 때문에, 이 컨테이너들이 특정 호스트에서 어떤식의 네트워크를 사용할지 선택을 해야하기 때문이다. 간단한 설명Netwrok Mode설명Host- 가장 기본적인 네트워크 모드Bridge- 가상 네트워크 브릿지를 제공하여 호스트 서버와 컨테이너간의 네트워크에 레이어를 생성함AWSVPC- ECS 가 각각의 task 마다 ENI 를 생성하고 관리하여, 각 task 는 VPC 내에 자신의 프라이핏 IP가 생긴다. 간단한 장단점 Netwrok Mode 장점단점Host- 간단한 설정- ..
kafka connector kafka 토픽으로부터 데이터를 읽고 씀 checkpointing mechanism exactly once를 보장하기 위해서 offset을 checkpointing 하고 추적함 position configuration - setStartFromGroupOffsets: Flink는 컨슈머 그룹의 파티션들을 읽기 시작하고, kafka broker에 있는 offset을 커밋하는데, offset을 찾을 수 으면, auto.offset.reset 속성이 사용된다 - setStartFromEarliest(Latest): 이 모드에선 커밋된 offset들은 무시되고 시작 포시션으로 사용되지 않음 - job 이 실패해서 자동으로 복구하거나 savepoint 를 사용해서 복구하는 경우 sta..
오늘 기억에 남는 것!! -> 플링크 스냅샷에 아직 반영되지 않은 상태 수정은 임시적인 것으로 간주해야 한다 ABS 배경 1. 분산 스트리밍 프로세스에서 잠재적인 장애를 처리하려고 찍는 snapshot의 성능상 문제로 Asynchronous Barier Snapshotting (ABS) 이 나옴 -> 데이터플로우에 minimal record log를 적용 -> ABS 를 Flink 에 적용 2. 기존에 exactly one 에는 동기(synchronous) 스냅샷을 이용해서 실행을 멈춰야 되는 단점이 있으며, 처리되기 전의 메세지도 스냅샷에 포함된다는 것도 단점이었음 3. 그 후에 나온 방법들 (checkpointing, 비동기로 스냅샷 찍기)에 대한 아이디어를 확장함 Apache Flink 1. Fli..
Event Streaming 이란? 이벤트 소스로부터 이벤트 스트리밍의 형태로 실시간으로 데이터를 캡처하고, 이벤트 스트리밍을 나중에 사용할 수 있도록 영구적으로 저장한다. 이벤트 스트리밍을 처리하고 필요한 목적지로 라우팅한다. 이벤트 스트리밍은 옳은 정보가 적시에 옳바른 곳에 있도록 연속적 흐름과 데이터 해석을 보장한다. Kafka는 Event Streaming 플래폼이다 kafka는 이벤트 스트리밍을 Publish(wirte) 하고 Subscribe(Read)해서, 시스템들로부터 데이터를 계속적으로 가져오거나 내보낸다 kafka는 이벤트 스트리밍을 내구성있게 보관한다 kafka는 이벤트 스트리밍을 처리한다 Kafka는 어떻게 작동할까? kafka는 TCP로 소통하는 client 와 server로 구성..
play의 필수 구성요소 1. name 2. hosts 3. tasks 예시 --- - name: Update web servers hosts: webservers remote_user: root tasks: - name: Ensure apache is at the latest version ansible.builtin.yum: name: httpd state: latest - name: Write the apache config file ansible.builtin.template: src: /srv/httpd.j2 dest: /etc/httpd.conf - name: Update db servers hosts: databases remote_user: root tasks: - name: Ensure ..
EKS 와 연결되는 aws 서비스들 AWS 컨테이너 이미지 ECR 노드 EC2 로드밸런서 ELB 인증/인가 IAM Private 네트워크 VPC Volume EBS k8s secret KMS 감사/로그 CloudWatch Log EKS Clustster Cluster 구성요소 설명 Control Plane - etcd, kubernetes api 등을 가짐 - kubernetes api는 eks endpoint를 통해 노출됨 - ec2 instance 위에서 돌아감 - 여러 AZ에 provision되어 ELB(NLB)로 트래픽을 받음 Node - VPC의 network를 이용해 control plane -> node로 트래픽 전송 eks endpoint Public Access Private Access..