kafka connector kafka 토픽으로부터 데이터를 읽고 씀 checkpointing mechanism exactly once를 보장하기 위해서 offset을 checkpointing 하고 추적함 position configuration - setStartFromGroupOffsets: Flink는 컨슈머 그룹의 파티션들을 읽기 시작하고, kafka broker에 있는 offset을 커밋하는데, offset을 찾을 수 으면, auto.offset.reset 속성이 사용된다 - setStartFromEarliest(Latest): 이 모드에선 커밋된 offset들은 무시되고 시작 포시션으로 사용되지 않음 - job 이 실패해서 자동으로 복구하거나 savepoint 를 사용해서 복구하는 경우 sta..
오늘 기억에 남는 것!! -> 플링크 스냅샷에 아직 반영되지 않은 상태 수정은 임시적인 것으로 간주해야 한다 ABS 배경 1. 분산 스트리밍 프로세스에서 잠재적인 장애를 처리하려고 찍는 snapshot의 성능상 문제로 Asynchronous Barier Snapshotting (ABS) 이 나옴 -> 데이터플로우에 minimal record log를 적용 -> ABS 를 Flink 에 적용 2. 기존에 exactly one 에는 동기(synchronous) 스냅샷을 이용해서 실행을 멈춰야 되는 단점이 있으며, 처리되기 전의 메세지도 스냅샷에 포함된다는 것도 단점이었음 3. 그 후에 나온 방법들 (checkpointing, 비동기로 스냅샷 찍기)에 대한 아이디어를 확장함 Apache Flink 1. Fli..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/y2luz/btrLVXJH3lQ/vKbzRoctznAAnxGyigP9B1/img.png)
Event Streaming 이란? 이벤트 소스로부터 이벤트 스트리밍의 형태로 실시간으로 데이터를 캡처하고, 이벤트 스트리밍을 나중에 사용할 수 있도록 영구적으로 저장한다. 이벤트 스트리밍을 처리하고 필요한 목적지로 라우팅한다. 이벤트 스트리밍은 옳은 정보가 적시에 옳바른 곳에 있도록 연속적 흐름과 데이터 해석을 보장한다. Kafka는 Event Streaming 플래폼이다 kafka는 이벤트 스트리밍을 Publish(wirte) 하고 Subscribe(Read)해서, 시스템들로부터 데이터를 계속적으로 가져오거나 내보낸다 kafka는 이벤트 스트리밍을 내구성있게 보관한다 kafka는 이벤트 스트리밍을 처리한다 Kafka는 어떻게 작동할까? kafka는 TCP로 소통하는 client 와 server로 구성..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bwY29X/btrLDH9Igfr/1l64CUtXgwXxNRXPG680lK/img.png)
ZOOKEEPER 는 왜 인스턴스가 여러개 올라갈까?? 를 알아보기 위해 공부하기!! Zookeeper: 분산된 어플리케이션들의 분산 코디네이터 서비스 zookeeper는 분산된 어플리케이션들에 사용되는 분산되어 있고, 오픈소스인 코디네이터로, 분산된 어플리케이션들이 동기화된 고레벨의 서비스, 구성 유지, 그룹, 네이밍을 할 수 있도록 한다. 프로그래밍하기 쉽게 되어 있으며 친숙한 트리구조의 파일시스템의 데이터 모델을 사용한다. zookeeper의 목적은 분산 어플리케이션들의 코디네이터 서비스 도입 책임을 완화시키는 것에 있다. 예를 들어 여러개 노드에서 프로세스를 하는 분산된 어플리케이션들은 부분적으로 실패할 가능성을 고려해야 하는데, 이러한 실패를 효율적으로 처리하기 위해서 필요하다. Design G..