環境
ホストマシン:HP Elitedesk 800 G4 SF
結論
既知のバグ(終わってんナ!)
最初の考察
Proxmox VEを基盤としたサーバーになっているのだが、分散ストレージ技術「Ceph」を利用していた。
最初はこいつが原因じゃないかと思い、Cephをまずは辞めてみる事にした。
Cephのアンインストール
やり方はシンプル。Web UIからCephに関する設定を全て外す事。
後は下記コードをシェルにぶち込んで完全にCephの機能を止める。
systemctl stop ceph.target - Cephの機能を停止
systemctl disable ceph.target - Cephの機能の自動起動を無効化
まぁひとまずはこれで何とかなるべ…そう思った私がいた。
いやダメじゃん()
何の原因の解決にもならなかった…。
syslogの情報
いやぁ、一応エンジニアやってるんですけどねぇ…ログ調査を見落としていたんですよね。
なんとカーネルエラーが発生していました。
《ログの一部》
Jun 20 14:30:35 ホスト名 kernel: e1000e 0000:00:xx.x eno1: Detected Hardware Unit Hang:
TDH <a5>
TDT <ce>
next_to_use <ce>
next_to_clean <a4>
buffer_info[next_to_clean]:
time_stamp <102409f49>
next_to_watch <a5>
jiffies <102425d81>
next_to_watch.status <0>
MAC Status <80083>
PHY Status <796d>
PHY 1000BASE-T Status <3800>
PHY Extended Status <3000>
PCI Status <10>
「なんじゃこりゃ…。」
ChatGPT君のDeep ReSearch使った
Proxmox VEにて、カーネルエラーが発生しました。
デバイスはE1000eで、「Detected Hardware Unit Hang:」が出ます。
これと同じエラーの事案があるか調査をお願いします。
なお、これの対処方法も調査をしてください。
こんな感じで調査を依頼してみた。
ChatGPTくんのDeep Researchって結構凄くて、時間かけてネット上の記事を漁って情報をまとめることができる。
こういう事象調査をしたい時にモッテコイな機能だから、これを見た技術ヲタクさんにもオススメします。使おう。
回答きちゃ。
Proxmox VE 6.8.12(Linux カーネル 5.x 系搭載)を稼働させた物理ホストで、Intel 製 NIC(主に Ethernet Connection I219/I217 系や 82579/82574L などのオンボード NIC)を利用している環境で「e1000e 0000:00:19.0 eno1: Detected Hardware Unit Hang」といったカーネルログが繰り返し出力され、ネットワークが不安定になる報告が多数あります( reddit.com ),( community.ipfire.org )。Proxmox 公式フォーラムや Linux コミュニティ、Reddit、IPFire フォーラムなどで同様の事例が報告されており、原因・対策が議論されています。
類似報告例:
・Proxmox フォーラムや Reddit では、I219-V や I217-LM、82579LM、82574L といった古い Intel NIC で大容量ファイル転送やブリッジ/VLAN を多用すると発生すると指摘されています。
・TrueNAS や ServetheHome でも I219-V 搭載マザーボードで同様の“Detected Hardware Unit Hang”が報告されており、ネットワーク負荷や VLAN・ブリッジ利用がきっかけになるケースが多いようです。
・IPFire 公式フォーラムでも「I219-V では 2013 年頃から問題が指摘されている」「解決策として GSO/GRO/TSO を無効化する」といった説明があり、回避策のコマンド例が紹介されています。
らしい。
まぁ簡潔にまとめると、Intel製の一部NIC (Network Interface Card) で、Detected Hardware Unit Hangのエラーが出て動作が不安定になるらしい。
確かに心当たりのあるような…と思ったんですよ。
乗ってるNICのチップがちょうど Intel製 NICの「I219系」で該当するんですよね。
・・・これじゃね?
検証期間
とりあえず本投稿から検証期間になります。
現状オンボードのNICは完全にOSから無効化しており、利用しない設定になっています。
代わりに現在TP-Link製のUSB-NICを導入しました。(使ってたのに…トホホ…)
これでしばらく改善するか様子を見ようと思いますので、何卒よろしくお願いします…!!