[카테고리:] 기술

  • How to Monitor Airflow with Zabbix

    Background The team I manage is divided into three parts: Cloud Engineers, DevOps, and Data Engineers.One day, a Data Engineer asked for the ability to receive alerts when Airflow DAGs fail. While Airflow’s Web UI can show the status of DAG runs, it doesn’t provide a direct way to trigger alerts.I searched for references, but…

  • Zabbix로 Airflow 모니터링하는 법

    배경 내가 책임지고 있는 팀은 Cloud Engineer / DevOps / Data Engineer 세 파트로 나뉘어 있다.어느 날 Data Engineer 팀원이 “Airflow DAG 성공 여부를 알람으로 받고 싶다” 는 니즈를 제기했다. Airflow Web UI에서 DAG 실행 상태는 확인할 수 있지만, 장애 알람으로 바로 받아볼 방법은 없었다.검색해보니 Prometheus 기반 대시보드 예제는 조금 있었지만, 정작 실패 알람에 초점을…

  • Preventing Split Brain: MySQL HA with Pacemaker and Corosync

    1. Introduction In the previous post, we looked at the concept of Split Brain and introduced MySQL HA as a representative example.In this article, we will expand on that discussion and, based on an actual production environment, explain how to prevent Split Brain using a Pacemaker + Corosync + MySQL Dual Master Replication setup. This…

  • Split Brain 방지: Pacemaker + Corosync 기반 MySQL HA 운영 가이드

    1. 서론 이전 글에서 Split Brain 개념과, 그 대표적인 예시로 MySQL HA 환경을 간단히 다뤘다.이번 글에서는 그 내용을 조금 더 확장하여, 실제 운영했던 환경을 기반으로 Pacemaker + Corosync + MySQL Dual Master Replication 구조에서 Split Brain을 방지하는 방법을 구체적으로 살펴본다. 다만 이 글은 예전에 운영했던 환경을 기억을 되살려 정리한 가이드이므로, 최신 환경에 그대로 적용하기보다는 자기…

  • Split Brain: Mitigation Strategies with a MySQL HA Example (using Pacemaker)

    1. What Is Split Brain? Split brain is an abnormal state in a cluster where two or more nodes simultaneously believe they are the primary (master).It often occurs after a short network partition when health checks misfire, allowing both sides to become active.When the network reconnects, the result is data conflicts, corruption, and inconsistency.This is…

  • Split Brain : MySQL HA 예시로 보는 대응 전략 (using pacemaker)

    1. Split Brain 이란 스플릿 브레인은 클러스터 환경에서 둘 이상의 노드가 동시에 자신을 마스터(Primary)라고 판단하는 비정상 상태다.짧은 네트워크 단절 후 헬스 체크 오판으로 양쪽이 동시에 활성화되고, 네트워크가 복구되는 순간 데이터 충돌, 손실, 불일치가 발생한다.데이터베이스, 스토리지 등 무결성이 중요한 서비스에서 특히 치명적이다. 2. 전형적 예시 대표적인 사례로 Pacemaker + Corosync + MySQL Dual Master Replication 구성을…

  • Automating AWS WAF IP Blocklists with Lambda (S3 + EventBridge, CloudFront WAFv2)

    Back when I led an infra/security team at a finance-related company, we needed to automatically apply the security provider’s periodic IP block list to AWS WAF. I’m documenting a slightly cleaned-up version of that setup here. Goals Why do we need two Lambda functions? The source format varies by provider/environment: If formats change over time…

  • AWS Lambda로 WAF IP 차단 리스트 자동화 (S3+EventBridge, CloudFront WAFv2)

    예전 금융권 관련 회사에서 인프라/보안 팀장을 맡았을 때, 관제사에서 주기적으로 주는 차단 IP 목록을 AWS WAF에 자동 반영해야 할 필요가 있었다. 그때 구성했던 방식을 약간 가공하여 정리해 둔다. 목표 왜 “두 가지” Lambda가 필요한가? 관제에서 주는 원본이 환경마다 다르다. 현장에서 관제 포맷이 바뀌거나 공급자가 여러 곳이면, 두 케이스를 각각 지원하면 운영이 편하다. (같은 Lambda 안에서…

  • Understanding File Descriptors (FD) in Linux

    At a previous job, one of my colleagues — a senior engineer of the same age as me — once insisted that we needed to scale out our servers because the system had supposedly hit its FD limit. It turned out he misunderstood FDs at the user level rather than the process level. That incident…

  • 리눅스에서 File Descriptor(FD) 이해하기

    예전 직장에서 있었던 일이다.한 시니어 엔지니어가 FD 한계치에 도달했다며 서버 증설을 주장했는데, 알고 보니 유저 단위로 FD를 잘못 이해하고 있었다. 그 일을 계기로 팀원들에게 FD 개념을 다시 교육했고, 그 기억이 떠올라 이 글을 공유하고자 한다. 운영 중인 리눅스 서버에서 열린 파일 수가 많다거나 FD를 늘려야 한다는 이야기가 자주 나온다. 하지만 FD(File Descriptor)의 개념을 정확히 이해하지…