例のサーバーダウンについて

環境

ホストマシン:HP Elitedesk 800 G4 SF

結論

既知のバグ(終わってんナ!)


最初の考察

Proxmox VEを基盤としたサーバーになっているのだが、分散ストレージ技術「Ceph」を利用していた。
最初はこいつが原因じゃないかと思い、Cephをまずは辞めてみる事にした。


Cephのアンインストール

やり方はシンプル。Web UIからCephに関する設定を全て外す事。
後は下記コードをシェルにぶち込んで完全にCephの機能を止める。

systemctl stop ceph.target  -  Cephの機能を停止
systemctl disable ceph.target  -  Cephの機能の自動起動を無効化

まぁひとまずはこれで何とかなるべ…そう思った私がいた。

いやダメじゃん()

何の原因の解決にもならなかった…。


syslogの情報

いやぁ、一応エンジニアやってるんですけどねぇ…ログ調査を見落としていたんですよね。
なんとカーネルエラーが発生していました。

《ログの一部》

「なんじゃこりゃ…。」


ChatGPT君のDeep ReSearch使った

Proxmox VEにて、カーネルエラーが発生しました。
デバイスはE1000eで、「Detected Hardware Unit Hang:」が出ます。
これと同じエラーの事案があるか調査をお願いします。
なお、これの対処方法も調査をしてください。

こんな感じで調査を依頼してみた。

ChatGPTくんのDeep Researchって結構凄くて、時間かけてネット上の記事を漁って情報をまとめることができる。
こういう事象調査をしたい時にモッテコイな機能だから、これを見た技術ヲタクさんにもオススメします。使おう。

回答きちゃ。

Proxmox VE 6.8.12(Linux カーネル 5.x 系搭載)を稼働させた物理ホストで、Intel 製 NIC(主に Ethernet Connection I219/I217 系や 82579/82574L などのオンボード NIC)を利用している環境で「e1000e 0000:00:19.0 eno1: Detected Hardware Unit Hang」といったカーネルログが繰り返し出力され、ネットワークが不安定になる報告が多数あります( reddit.com ),( community.ipfire.org )。Proxmox 公式フォーラムや Linux コミュニティ、Reddit、IPFire フォーラムなどで同様の事例が報告されており、原因・対策が議論されています。

類似報告例:

・Proxmox フォーラムや Reddit では、I219-V や I217-LM、82579LM、82574L といった古い Intel NIC で大容量ファイル転送やブリッジ/VLAN を多用すると発生すると指摘されています。

・TrueNAS や ServetheHome でも I219-V 搭載マザーボードで同様の“Detected Hardware Unit Hang”が報告されており、ネットワーク負荷や VLAN・ブリッジ利用がきっかけになるケースが多いようです。

・IPFire 公式フォーラムでも「I219-V では 2013 年頃から問題が指摘されている」「解決策として GSO/GRO/TSO を無効化する」といった説明があり、回避策のコマンド例が紹介されています。


らしい。

まぁ簡潔にまとめると、Intel製の一部NIC (Network Interface Card) で、Detected Hardware Unit Hangのエラーが出て動作が不安定になるらしい。

確かに心当たりのあるような…と思ったんですよ。
乗ってるNICのチップがちょうど Intel製 NICの「I219系」で該当するんですよね。

・・・これじゃね?


検証期間

とりあえず本投稿から検証期間になります。

現状オンボードのNICは完全にOSから無効化しており、利用しない設定になっています。
代わりに現在TP-Link製のUSB-NICを導入しました。(使ってたのに…トホホ…)

これでしばらく改善するか様子を見ようと思いますので、何卒よろしくお願いします…!!

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です