본문 바로가기

Kafka4

Kafka 입문 (4) 10강. Apache Kafka Connect https://youtu.be/UURmOj6Eaoo 반복적인 데이터 파이프라인을 효과적으로 배포/관리하는 방법으로 카프카 커넥터를 사용한다. 카프카 커넥트는 공식 컴포넌트다. 공식이라고 들이미는 것 자체가 나름 비중이 있다는 것이겠지? 카프카 커넥트는 커넥트(Connect)와 커넥터(Connector)로 이루어져 있다. 대충 비슷해 보이지만 다른 개념이니 주의. Connector -> 실질적으로 데이터를 처리하는 코드가 담긴 jar 패키지. -> 템플릿처럼 특정 동작을 하는 코드 뭉치 -> 파이프라인에 필요한 여러 동작/설정/메서드 등이 포함되어 있다. 예시) 토픽에서 오라클 DB에 데이터를 저장하고 싶다 -> 커넥터에 INSERT 메서드를 구현하고 커넥터 .. 2022. 10. 6.
Kafka 입문 (3) 6강. Lag in Apache Kafka https://youtu.be/D7C_CFjrzBk 프로듀서는 파티션으로 데이터를 넣고, 컨슈머는 파티션으로 들어온 데이터를 읽는다. 위 2개는 오프셋으로도 지정이 된다 : 프로듀서가 마지막으로 넣은 오프셋/컨슈머가 마지막으로 읽은 오프셋 만일 프로듀서가 데이터를 넣는 속도가 컨슈머가 데이터를 읽어가는 속도보다 빠르다면 2개 오프셋 간에 차이가 발생하게 되는데, 이 차이를 Consumer Lag이라고 한다. 토픽에 여러 파티션이 존재할 경우 lag도 여러 개가 존재할 수 있다. 이 여러 개의 lag 중 가장 높은 lag을 records-lag-max라고 한다. lag의 숫자를 통해 해당 토픽에 연결되어 있는 프로듀서와 컨슈머의 상태를 추측할 수 있다. 주로 컨슈.. 2022. 9. 20.
Kafka 입문 (2) 4강. Broker, Replication, ISR(In Sync Replica) in Apache Kafka https://youtu.be/qpEEoGpWVig Broker : 카프카가 설치되어 있는 서버 단위. 보통 3개 이상의 브로커를 구성할 것을 권장한다. 만약 토픽이 1개고 브로커가 3대라면 브로커 3대 중 1대에 해당 토픽의 정보가 저장된다. Replication은 카프카 서버 운영에 있어서 핵심적인 요소다. 클러스터에서 서버 장애가 발생했을 때 카프카의 가용성을 보장하는 가장 좋은 방법이다. Replication은 파티션의 복제를 의미한다. 만약 레플리케이션이 1이라면 파티션은 1개만 존재한다는 것이다. 레플리케이션이 2라면 원본 1개 + 복제본 1개, 총 2개의 파티션이 존재하게 된다. 3.. 2022. 9. 5.
Kafka 입문 (1) 여기저기 둘러봐도 카프카를 안쓰는 곳이 없다. 데이터 분석 관련 수요가 아니더라도 생각보다 훨씬 널리 사용되고 있었다. 그럼에도 불구하고 얼핏 보기에는 난이도가 높아 입문에 대한 심리적 장벽이 높았다. 시간끌다 뭣도 안되니 일단 박자. 유튜브님 도와주세요! 1강. 아파치 카프카 개요 및 설명 https://youtu.be/waw0XXNX-uQ '데브원영'님의 카프카 입문 강의 앱을 만들 때, 데이터를 주고받는다. 이때 소스 앱과 타겟 앱이 있는데, 서비스가 확장되며 소스/타겟의 숫자가 늘어난다. 그래서 소스와 타겟 1:1의 연결로는 결국 구성이 그물처럼 복잡해진다. 이렇게 되면 데이터 관리, 유지/보수 측면에서 최악이다. 아파치 카프카는 이런 문제를 해결하기 위해 개발되었다. 여러 데이터 소스들은 카프카.. 2022. 9. 1.