온프레미스 Kubernetes 클러스터 전력 작업 가이드: Master, fstab, NAS 운영 절차

Ubuntu 온프레미스 환경에서 Kubernetes 클러스터를 운영할 때, 전원 차단(Shutdown)과 재기동(Power On) 절차는 단순히 전원만 켜고 끄는 문제가 아니다.
Master 노드, etcd quorum, fstab 설정, NAS 기동 순서가 맞지 않으면 클러스터 전체가 불안정해질 수 있다.
이 글에서는 온프레미스 환경에서 안전하게 클러스터를 재기동하는 방법을 정리한다.


1. Master 이중화 여부 확인

  • 싱글 마스터 환경
    → Master 1대만 정상 기동되면 됨.
  • 멀티 마스터 환경
    → 반드시 etcd quorum(과반수 노드) 확보가 필요하다.
    • 3노드 구성 → 최소 2대 기동
    • 5노드 구성 → 최소 3대 기동
  • quorum 미달 상태가 길어지면 etcd 불안정 및 데이터 불일치 위험이 커진다.

2. fstab (NFS 마운트) 설정 점검

전제

Kubernetes에서 NAS를 PV/PVC로 사용하려면 fstab 설정은 원칙적으로 필요 없다.
하지만 운영 편의상 Master 노드에서 NAS 경로 확인용으로 fstab에 항목을 넣어둔 경우를 상정한다.

문제 원인

  • 부팅 시점에 NAS 서버가 응답하지 않거나 지연되면 NFS 마운트 실패
  • systemd는 이를 치명적 오류로 간주 → rescue mode 진입
  • 결과적으로 Master 노드 부팅이 멈추고, etcd와 kube-apiserver가 꼬일 수 있다.

안전한 설정 예시

# ❌ 문제되는 방식 (위험)
192.168.10.50:/data /mnt/data nfs defaults 0 0

# ✅ 안전한 방식
192.168.10.50:/data /mnt/data nfs defaults,nofail,x-systemd.automount,_netdev 0 0
  • nofail → 마운트 실패해도 부팅은 계속 진행
  • _netdev → 네트워크가 준비된 뒤 마운트
  • x-systemd.automount → 실제 접근 시점에 자동 마운트

차선책

  • fstab 내 NAS 항목을 아예 주석 처리
  • NAS 확인은 수동 마운트(mount -t nfs …)로만 진행
  • Master뿐 아니라 모든 노드에서 동일하게 적용

3. Power On 순서 (온프레미스 환경)

1단계: NAS 및 네트워크 장비

  • NAS 전원 인가 → 관리 콘솔에서 정상 동작 확인
  • 스위치·라우터 등 네트워크 장비 상태 점검
  • 최소 10분 안정화 대기

2단계: Master 노드

  • 싱글 마스터: Master 단독 기동
  • 멀티 마스터: etcd quorum 확보(과반수 노드 이상 기동)
  • 네트워크 및 컨트롤 플레인 헬스 체크:
    ping 192.168.10.1 # 게이트웨이 통신 확인
    curl -k https://127.0.0.1:6443/healthz
    etcdctl endpoint health
    systemctl status kubelet
  • kubectl get nodes → Master Ready 상태 확인
  • (fstab 설정이 있다면) NAS 마운트 정상 여부 확인

3단계: Worker 노드

  • Master가 완전히 정상화된 후, 워커 노드를 한 대씩 순차 기동
  • 각 노드 Ready 상태 확인 후 다음 노드 진행
  • 통신 이상 발생 시 → Master 복구 전까지 워커 기동 보류

4. Rescue Mode 진입 시 발생 문제

  1. 부팅 실패
    • 네트워크 준비 전에 NFS 마운트 시도 → systemd가 rescue 모드 진입
  2. 컨트롤 플레인 꼬임
    • kubelet, apiserver, etcd 기동 타임아웃 → 통신 불안정
  3. 데이터 불일치
    • 멀티 마스터 환경에서는 quorum 깨질 수 있음
  4. 간단 재시작으로 해결 불가
    • NAS만 살려도 꼬임은 해소되지 않음
    • 심한 경우 Master 교체 및 클러스터 재배포 필요

5. 핵심 요약

  • fstab은 원칙적으로 불필요하지만, Master에서 NAS 확인용으로 설정한 경우 반드시 nofail, _netdev, x-systemd.automount 옵션을 붙이거나 주석 처리.
  • 전원 기동 순서: NAS → Master → Worker
  • 멀티 마스터: quorum 확보가 최우선
  • Master Ready 상태 확인 후에만 Worker 기동
  • Rescue 모드는 단순 부팅 실패가 아니라 컨트롤 플레인 장애의 시작점
ⓒ 2025 엉뚱한 녀석의 블로그 [quirky guy's Blog]. 본문 및 이미지를 무단 복제·배포할 수 없습니다. 공유 시 반드시 원문 링크를 명시해 주세요.
ⓒ 2025 엉뚱한 녀석의 블로그 [quirky guy's Blog]. All rights reserved. Unauthorized copying or redistribution of the text and images is prohibited. When sharing, please include the original source link.

🛠 마지막 수정일: 2025.09.18