[카테고리:] Kubernetes
-
On-Premises Kubernetes Cluster Power Operations Guide: Master, fstab, NAS Procedures
When running a Kubernetes cluster in an Ubuntu on-premises environment, powering off (shutdown) and powering on (reboot/startup) is not just about toggling the servers.If the Master node, etcd quorum, fstab configuration, or NAS startup order is mishandled, the entire cluster can become unstable.This post outlines how to safely restart a cluster in such an environment.…
-
온프레미스 Kubernetes 클러스터 전력 작업 가이드: Master, fstab, NAS 운영 절차
Ubuntu 온프레미스 환경에서 Kubernetes 클러스터를 운영할 때, 전원 차단(Shutdown)과 재기동(Power On) 절차는 단순히 전원만 켜고 끄는 문제가 아니다.Master 노드, etcd quorum, fstab 설정, NAS 기동 순서가 맞지 않으면 클러스터 전체가 불안정해질 수 있다.이 글에서는 온프레미스 환경에서 안전하게 클러스터를 재기동하는 방법을 정리한다. 1. Master 이중화 여부 확인 2. fstab (NFS 마운트) 설정 점검 전제 Kubernetes에서 NAS를…
-
Kubernetes Node Disk Pressure Threshold Adjustment (evictionHard)
When node disk usage exceeds a certain threshold, the Disk Pressure condition is triggered and pods are evicted.Default hard thresholds (Linux-based): In other words, by default, DiskPressure occurs when root (nodefs) reaches 90% usage and imagefs reaches 85% usage. Adjustment Result (usage basis): Threshold Key Descriptions 📌 Summary: Disk usage can now reach up to…
-
Kubernetes 노드 Disk Pressure 임계치 조정 (evictionHard)
노드 디스크 사용량이 임계치를 넘으면 DiskPressure 조건이 발생하고 파드가 축출(eviction).기본 하드 임계치 (Linux 기준): 즉, 기본값은 루트(nodefs) 90% 사용, 이미지(imagefs) 85% 사용 시점에서 DiskPressure 발생. 조정 내용 📌 요약: 디스크 사용량이 95%까지 올라가도 DiskPressure가 걸리지 않도록 상향 조정→ 기본 대비 여유 공간 버퍼를 크게 줄인 설정.⚠️ 리스크: 로그 기록, 업데이트, 임시 파일 쓰기 실패 가능성…
-
Resolving Installation Conflicts Caused by Undeleted Resources in Kubernetes
When operating a Kubernetes cluster, you may encounter situations where deploying a new add-on or application fails because resources from a previous installation were not completely removed. A common culprit is leftover Webhook resources such as MutatingWebhookConfiguration or ValidatingWebhookConfiguration. Since these components intercept API requests to validate or mutate resources, their presence can cause unexpected…
-
Kubernetes에서 삭제되지 않은 리소스로 인한 설치 충돌 문제 해결하기
운영 중 Kubernetes 클러스터에서 애드온(addon)이나 신규 애플리케이션을 배포하다 보면,종종 기존 리소스가 완전히 삭제되지 않은 상태에서 잔여 리소스가 충돌을 일으키는 경우가 있다. 대표적으로 MutatingWebhookConfiguration 또는 ValidatingWebhookConfiguration 과 같은 웹훅(Webhook) 리소스가 삭제되지 않고 남아있을 때 이런 문제가 발생.이 리소스들은 API 요청 경로에 개입하여 리소스 생성/수정을 검증하기 때문에, 예상치 못한 에러를 유발할 수 있음. 증상 1. 잔여 웹훅…
-
Clean Removal & Re-Addition of Kubernetes Worker Nodes (with Kubespray)
Scope: Worker nodes only (excluding control plane and etcd)Assumption: Running cluster in production, minimize downtime ✅ Checklist 0. Pre-check kubectl drain respects PodDisruptionBudgets (PDBs). If drain is blocked by a PDB, scale out/in temporarily or relax the PDB before proceeding. 📌 PodDisruptionBudget (PDB) If there are 3 pods with label app=my-api, drain will only remove…
-
Kubespray 기반 K8s에서 워커 노드 삭제 & 재추가
대상: Kubespray로 구축/운영 중인 워커 노드(control-plane, etcd 제외)전제: 운영 중 클러스터, 다운타임 최소화 목표 체크리스트 0. 변경 전 점검 1. 워커 노드 드레인 & K8s 오브젝트 제거 기본 절차: 드레인 → 노드 삭제. CNI(예: Calico) 잔여 리소스 정리 (선택) 드물게 노드 오브젝트 삭제 후에도 CNI의 노드/아이피 할당이 남는 경우가 있습니다. Calico 사용 시: ⚠️ 주의:…
-
How Ingress Controller Traffic Works on On-Prem K8s with MetalLB — Why externalTrafficPolicy: Cluster Can Blackhole Traffic
1) Default Behavior (Cluster mode) — Kubernetes Check your current setting 2) VIP Binding in MetalLB L2 3) Failure Scenario 4) Why a Blackhole Even in Cluster Mode? 5) Practical Remediation ✅ Summary
-
MetalLB 기반 온프레미스 K8s에서 Ingress Controller 트래픽 처리 방식
externalTrafficPolicy: Cluster의 문제 발생 원인 (K8S 환경에서) 1. 기본 동작 (Cluster 모드) – K8S 적용 2. MetalLB L2에서 VIP 바인딩 구조 3. 문제 발생 시나리오 4. 왜 Cluster인데도 블랙홀이 생기는가? 👉 즉, 문제의 본질은 L2 모드의 ARP 테이블 갱신일 확률이 큼 : 이 경우 igress traffic policy를 local로 변경하고 변경하려는 노드에 ingress pod를 띄워도 문제…