[작성자:] black K
-
Monitoring NVIDIA GPUs with Zabbix
Ready to streamline your complex Zabbix operations? I’ve distilled the most valuable insights from this blog into one essential guide. Take full control of your environment with the Zabbix 7 Enterprise Optimization Handbook [Mastering Hybrid Infrastructure Monitoring with a Kubernetes First Approach]. 👉 Get your PDF copy here: https://jikimy.gumroad.com/l/zabbixmaster You can install it with apt…
-
Zabbix로 NVIDIA GPU 모니터링 하기
“복잡한 Zabbix 운영을 더 효율적으로 만들고 싶다면,블로그의 핵심 내용을 집대성한 『Zabbix 엔터프라이즈 최적화 핸드북(PDF)』을 확인해보세요.” https://jikimy.gumroad.com/l/zabbix-master Zabbix에서 NVIDIA GPU를 제대로 모니터링하려면zabbix-agent2-plugin-nvidia-gpu 플러그인이 필요하다. # apt install zabbix-agent2-plugin-nvidia-gpu 로 패키지 설치할 수도 있고.소스 빌드로 설치하는 방법이 있는데. 여기서는 소스 빌드 설치하는 법을 가이드하도록 하겠다.아래와 같은 이유로 소스 빌드 방법 가이드를 제시하는 부분이니 참고 바란다. 패키지로 문제…
-
Kubernetes Packet Drops Caused by nf_conntrack Exhaustion — A Practical Guide for Ubuntu-Based Nodes
In Kubernetes environments, it’s common to see intermittent timeouts when using NodePort services, calling external APIs, or communicating between internal services.Pods appear healthy, nodes have available resources, and logs look clean—yet specific traffic paths intermittently drop packets for no obvious reason. When this happens repeatedly on Ubuntu-based Kubernetes nodes, the first thing to check is:…
-
Kubernetes 환경에서 nf_conntrack 고갈로 발생하는 패킷 드롭 — Ubuntu 기준 실전 가이드
Kubernetes 환경에서 NodePort, 외부 API 호출, 내부 서비스 간 통신이 간헐적으로 타임아웃 나는 경우가 있다.Pod도 정상이고, 노드 리소스도 여유 있고, 로그도 깨끗한데 특정 트래픽만 불규칙하게 drop되는 패턴이다. Ubuntu 기반 Kubernetes 노드에서 이런 현상이 반복될 때 가장 먼저 확인해야 하는 부분이 있다. 노드의 nf_conntrack 테이블이 한계에 도달했는지 여부다. Ubuntu는 기본적으로 적당한 conntrack 값을 제공하지만,Kubernetes 환경처럼 NAT이…
-
モニタリング指標に関する考察(第2編:Kafka)
前回の記事では MySQL の指標を扱ったが、今回は Kafka を取り上げる。運用環境において Kafka は単なるメッセージキューではなく、データストリーミングプラットフォームとして重要な役割を担う。そのため Kafka ブローカーおよびクラスタ状態を細かく監視することは、障害予防や性能保証に不可欠である。 本稿では Grafana ダッシュボード(Zabbix データベース連携) に表示される主要な Kafka 指標について、その意味と読み解き方を整理する。 1. Offline Partitions Count 意味:クラスタ内でリーダーを失い、アクセス不能になったパーティション数。正常値:0異常時:ブローカー障害、ネットワーク断、ディスク I/O 不全などで発生。 👉 運用ポイント:Offline Partition が 1 つでも出ればデータロスの可能性が高く、即時原因調査が必要。 2. Under Replicated Partitions(URP) 意味:リーダーパーティションの最新データをフォロワーが同期できていない状態。正常値:0異常時:ブローカー過負荷、ネットワーク遅延、ISR 縮小など。 👉 運用ポイント:URP は Kafka 運用で最重要警告指標。瞬間的でも危険信号、継続するならリソース増強または障害対応が必要。 3. GC Pause 意味:Kafka ブローカー JVM の Garbage Collection 実行時にアプリケーションが停止する時間。 👉 運用ポイント:平均 pause time が増えるとメッセージ処理遅延につながる。Heap…
-
モニタリング指標に関する考察(第1編 : MySQL))
運用環境における MySQL は、単なるリレーショナルデータベースにとどまらず、多数のアプリケーションにとって中核的な永続ストアであり、サービス安定性の基盤そのものだ。したがって、MySQL サーバーおよびクエリ処理状態を細かく監視することは、障害予防や性能最適化に欠かせない。 Zabbix で読む MySQL パフォーマンス (要約) 1) InnoDB が現在開いているファイル数 意味:InnoDB がオープンしているファイルハンドル数(テーブルスペースなど)。正常範囲:数十〜数百程度。innodb_open_files の上限内なら問題なし。異常の兆候:急増 + エラー発生 → OS のファイルハンドル制限/ulimit を確認。 チェック 2) 接続状況(Aborted / Connections per sec など) 意味 判断基準(推奨) 実務的ポイント クイック確認 3) クエリ状況(Queries/s vs Questions/s) 意味MySQL バージョンにより微妙に定義が異なるが、概ね「実行された命令数/秒」と見てよい。 パターン読み取り 問題シグナル チューニング 4) MySQL ネットワークトラフィック(Bytes sent/received) 意味:DB とアプリ間 I/O の量。DML/SELECT の補助指標。 自然な相関:DML・Queries のスパイクと同時に増える。異常:ネットワークだけ急増 → ダンプ/バックアップ/レプリケーション/ヘルスチェックツール等を確認。…
-
Analysis of Slow SSH Login — /dev/pts Contention Caused by Accumulated bash Sessions
Some time ago, I encountered an issue on an Ubuntu server where SSH login became unusually slow or unstable.System resources appeared normal, logs were clean, and nothing pointed to an obvious cause.This post summarizes the analysis I performed back then.It may be useful for anyone facing a similar situation. 1. Symptoms at the Time From…
-
SSH 접속 지연 원인 분석 — 누적된 bash 세션으로 발생한 /dev/pts 경합 문제
예전에 Ubuntu 서버에서 SSH 접속이 비정상적으로 지연되거나 끊기는 문제를 겪은 적이 있었다.겉으로는 서버 자원도 정상이고 로그도 깨끗했기 때문에 원인 파악이 쉽지 않았다.그 당시 분석했던 내용을 다시 정리해 둔다.비슷한 상황을 겪는 사람들에게 참고가 될 수 있을 것이다. 1. 당시 증상 표면적으로는 원인을 찾기 어렵고 진단 범위도 매우 넓은 상태였다. 2. 처음 확인된 이상 징후 — bash…
-
Service Failure When Internal App Servers Call an L4 VIP — Why You Need a Proxy IP
In many internal service environments, application servers send traffic to a private L4 VIP.This is common in architectures where an internal load-balancing layer mediates traffic between multiple app servers.As a result, an app server calling its own VIP is a perfectly normal scenario. Yet under certain conditions, this setup can suddenly start dropping traffic.This typically…
-
