例のサーバーダウンについて

環境

ホストマシン：HP Elitedesk 800 G4 SF

結論

既知のバグ（終わってんナ！）

最初の考察

Proxmox VEを基盤としたサーバーになっているのだが、分散ストレージ技術「Ceph」を利用していた。
最初はこいつが原因じゃないかと思い、Cephをまずは辞めてみる事にした。

Cephのアンインストール

やり方はシンプル。Web UIからCephに関する設定を全て外す事。
後は下記コードをシェルにぶち込んで完全にCephの機能を止める。

systemctl stop ceph.target  -  Cephの機能を停止
systemctl disable ceph.target  -  Cephの機能の自動起動を無効化

まぁひとまずはこれで何とかなるべ…そう思った私がいた。

いやダメじゃん（）

何の原因の解決にもならなかった…。

syslogの情報

いやぁ、一応エンジニアやってるんですけどねぇ…ログ調査を見落としていたんですよね。
なんとカーネルエラーが発生していました。

《ログの一部》

Jun 20 14:30:35 ホスト名 kernel:  e1000e 0000:00:xx.x eno1: Detected Hardware Unit Hang:
                                    TDH                     <a5>
                                    TDT                     <ce>
                                    next_to_use             <ce>
                                    next_to_clean           <a4>
                                  buffer_info[next_to_clean]:
                                    time_stamp              <102409f49>
                                    next_to_watch           <a5>
                                    jiffies                 <102425d81>
                                    next_to_watch.status    <0>
                                  MAC Status                <80083>
                                  PHY Status                <796d>
                                  PHY 1000BASE-T Status     <3800>
                                  PHY Extended Status       <3000>
                                  PCI Status                <10>

「なんじゃこりゃ…。」

ChatGPT君のDeep ReSearch使った

Proxmox VEにて、カーネルエラーが発生しました。
デバイスはE1000eで、「Detected Hardware Unit Hang:」が出ます。
これと同じエラーの事案があるか調査をお願いします。
なお、これの対処方法も調査をしてください。

こんな感じで調査を依頼してみた。

ChatGPTくんのDeep Researchって結構凄くて、時間かけてネット上の記事を漁って情報をまとめることができる。
こういう事象調査をしたい時にモッテコイな機能だから、これを見た技術ヲタクさんにもオススメします。使おう。

回答きちゃ。

Proxmox VE 6.8.12（Linux カーネル 5.x 系搭載）を稼働させた物理ホストで、Intel 製 NIC（主に Ethernet Connection I219/I217 系や 82579/82574L などのオンボード NIC）を利用している環境で「e1000e 0000:00:19.0 eno1: Detected Hardware Unit Hang」といったカーネルログが繰り返し出力され、ネットワークが不安定になる報告が多数あります( reddit.com ),( community.ipfire.org )。Proxmox 公式フォーラムや Linux コミュニティ、Reddit、IPFire フォーラムなどで同様の事例が報告されており、原因・対策が議論されています。

類似報告例:

・Proxmox フォーラムや Reddit では、I219-V や I217-LM、82579LM、82574L といった古い Intel NIC で大容量ファイル転送やブリッジ/VLAN を多用すると発生すると指摘されています。

・TrueNAS や ServetheHome でも I219-V 搭載マザーボードで同様の“Detected Hardware Unit Hang”が報告されており、ネットワーク負荷や VLAN・ブリッジ利用がきっかけになるケースが多いようです。

・IPFire 公式フォーラムでも「I219-V では 2013 年頃から問題が指摘されている」「解決策として GSO/GRO/TSO を無効化する」といった説明があり、回避策のコマンド例が紹介されています。

らしい。

まぁ簡潔にまとめると、Intel製の一部NIC (Network Interface Card) で、Detected Hardware Unit Hangのエラーが出て動作が不安定になるらしい。

確かに心当たりのあるような…と思ったんですよ。
乗ってるNICのチップがちょうど Intel製 NICの「I219系」で該当するんですよね。

・・・これじゃね？

検証期間

とりあえず本投稿から検証期間になります。

現状オンボードのNICは完全にOSから無効化しており、利用しない設定になっています。
代わりに現在TP-Link製のUSB-NICを導入しました。（使ってたのに…ﾄﾎﾎ…）

これでしばらく改善するか様子を見ようと思いますので、何卒よろしくお願いします…！！

固定ページ: 1 2

環境

結論