[작성자:] black K

  • Enterprise Zabbix Extension Pattern: Collecting K8S Pod Network Traffic (via cAdvisor)

    By default, Zabbix Kubernetes templates provide only basic metrics such as CPU, memory, disk, node status, and container status. Pod-level network traffic is missing.In many environments, this gap is covered by Prometheus. Here, however, is a case study where Zabbix alone was extended to collect Pod-level RX/TX traffic metrics. This design was built from scratch…

  • 엔터프라이즈 Zabbix 확장 패턴: K8S Pod 네트워크 트래픽 수집 (cAdvisor 기반)

    일반적으로 Zabbix Kubernetes 템플릿은 CPU, 메모리, 디스크, 노드 상태, 컨테이너 상태 위주의 기본 지표만 제공한다. Pod 단위 네트워크 트래픽은 빠져 있다. 많은 운영 환경에서는 Prometheus를 통해 이 문제를 해결하지만, 여기서는 Zabbix만으로 Pod-level 네트워크 트래픽 수집을 완성한 사례를 공유한다. 이 설계는 레퍼런스가 전혀 없는 상태에서 직접 만든 것으로, 검증된 운영 환경에서 이미 활용 중이다. 설계 개요…

  • Kubernetes Node Disk Pressure Threshold Adjustment (evictionHard)

    When node disk usage exceeds a certain threshold, the Disk Pressure condition is triggered and pods are evicted.Default hard thresholds (Linux-based): In other words, by default, DiskPressure occurs when root (nodefs) reaches 90% usage and imagefs reaches 85% usage. Adjustment Result (usage basis): Threshold Key Descriptions 📌 Summary: Disk usage can now reach up to…

  • Kubernetes 노드 Disk Pressure 임계치 조정 (evictionHard)

    노드 디스크 사용량이 임계치를 넘으면 DiskPressure 조건이 발생하고 파드가 축출(eviction).기본 하드 임계치 (Linux 기준): 즉, 기본값은 루트(nodefs) 90% 사용, 이미지(imagefs) 85% 사용 시점에서 DiskPressure 발생. 조정 내용 📌 요약: 디스크 사용량이 95%까지 올라가도 DiskPressure가 걸리지 않도록 상향 조정→ 기본 대비 여유 공간 버퍼를 크게 줄인 설정.⚠️ 리스크: 로그 기록, 업데이트, 임시 파일 쓰기 실패 가능성…

  • Resolving Installation Conflicts Caused by Undeleted Resources in Kubernetes

    When operating a Kubernetes cluster, you may encounter situations where deploying a new add-on or application fails because resources from a previous installation were not completely removed. A common culprit is leftover Webhook resources such as MutatingWebhookConfiguration or ValidatingWebhookConfiguration. Since these components intercept API requests to validate or mutate resources, their presence can cause unexpected…

  • Kubernetes에서 삭제되지 않은 리소스로 인한 설치 충돌 문제 해결하기

    운영 중 Kubernetes 클러스터에서 애드온(addon)이나 신규 애플리케이션을 배포하다 보면,종종 기존 리소스가 완전히 삭제되지 않은 상태에서 잔여 리소스가 충돌을 일으키는 경우가 있다. 대표적으로 MutatingWebhookConfiguration 또는 ValidatingWebhookConfiguration 과 같은 웹훅(Webhook) 리소스가 삭제되지 않고 남아있을 때 이런 문제가 발생.이 리소스들은 API 요청 경로에 개입하여 리소스 생성/수정을 검증하기 때문에, 예상치 못한 에러를 유발할 수 있음. 증상 1. 잔여 웹훅…

  • Clean Removal & Re-Addition of Kubernetes Worker Nodes (with Kubespray)

    Scope: Worker nodes only (excluding control plane and etcd)Assumption: Running cluster in production, minimize downtime ✅ Checklist 0. Pre-check kubectl drain respects PodDisruptionBudgets (PDBs). If drain is blocked by a PDB, scale out/in temporarily or relax the PDB before proceeding. 📌 PodDisruptionBudget (PDB) If there are 3 pods with label app=my-api, drain will only remove…

  • Kubespray 기반 K8s에서 워커 노드 삭제 & 재추가

    대상: Kubespray로 구축/운영 중인 워커 노드(control-plane, etcd 제외)전제: 운영 중 클러스터, 다운타임 최소화 목표 체크리스트 0. 변경 전 점검 1. 워커 노드 드레인 & K8s 오브젝트 제거 기본 절차: 드레인 → 노드 삭제. CNI(예: Calico) 잔여 리소스 정리 (선택) 드물게 노드 오브젝트 삭제 후에도 CNI의 노드/아이피 할당이 남는 경우가 있습니다. Calico 사용 시: ⚠️ 주의:…

  • 2화 : 청춘

    삐삐가 허리춤에서 요란하게 울었다. 새벽 한 시가 넘은 시각. 액정에 뜬 건 상택이가 남긴 음성메시지였다.이 시간에 미친… “아, 이 자식 진짜…” 나는 뻐근한 몸을 일으켜 담배를 찾았다. 형은 이미 깊이 잠들어 규칙적인 숨소리를 뱉어내고 있었다. 대구의 자취방은 딱 그만큼의 공간이었다. 두 개의 이부자리와 책상 하나, 그리고 라면과 김치 냄새가 섞인 공기. 그게 우리 세계의 전부였다.…

  • An Examination of Monitoring Metrics: Part 5 MongoDB

    MongoDB is more than a simple document database. It is widely used as a session store, log analytics engine, and even a messaging backbone.To ensure stable operations, monitoring must cover availability, performance, resources, cursors & connections, and network usage.The following are the core metrics that should always be part of a MongoDB monitoring strategy. 1.…