たまに掃除は必要!熱暴走…

イメージ
 そんなに暑くないのに… 本日、午前中にオンラインで打合せをしていると、突然マシンがダウン。 一瞬、停電か?と思ったもののディスプレイの電源は入っている。 あれっ?と思い、すぐさまノートで打合せを継続。 その間に、再度マシンの電源を投入。 問題なく起動する。 でも、CPU温度がたまたま目に入り、95℃を超えて徐々に上昇していく。 105℃あたりで再度マシンダウン。 これは、熱暴走によるダウンの可能性が高い。 以前、CPUをRyzen7→9にした頃は、60℃〜70℃程度だった記憶がある。 本当はGW中にSSDの載せ替えを行う予定だったけれど、忙しくて先延ばしにしていた。 その時やっていれば、多分掃除もしただろうに…。 ということで、午後からマシンを解体し、掃除をすることに。 ケース本体のFANはホコリがかなり溜まっている。 GPUのFANは問題ない。 電源とCPU FANはひどい。 一旦、CPU FANを取り外し、きれいにする。ついでにCPUグリスも塗り直しセット。 動作確認すると、投入直後で40℃台。 そりゃ、熱暴走も起こすわけだ。 せっかくバラしたので、SSDの載せ替えを実施。 OSは500GBで、ユーザ領域(/home)は1TBを使用しているもののAIのmodelをいくつも落としていたり、DockerのImageが多種置いてあるため、結構容量を食っている。 今回、2TBのSSD( Hanye SSD ¥17,800- で入手済)を用意してあるので、 1TB→2TB, 500GB→1TBと玉突きで移動させることを計画していたので実施する。 本当は、ddコマンドで移すつもりだったのだけれど、3月にお客さんのところで使いそうだったので、 ORICOのクローン機能付SSDアダプタ を入手済。 裸族のSSD版ですね…。1万円程度の品です。 これに、新品のSSDとこれまでの1TBのSSDを差し込んでクローン開始。 そこそこ時間はかかるものの、放置でOK。 ただ、HanyeのSSDについているヒートシンクが引っかかるため、一旦取り外してクローン後取り付ける必要があった。 続いて、500GB→先程の1TBに書き込み。 ただ、1TB(samsungの980pro)が、先程のクローンでかなり熱くなっていたため、速度低下が激しい感じ。1TB→2TBよりも時間がかかった感じ。 ...

p2vでの仮想化完了

Redhatからのデータ

リプレイスのためのサーバ上のディスクデータは、吸い出すことが出来た。
今度は、このデータを元に仮想環境で動作させることになる。

前回の作業で、/bootには問題が多々あり、データ領域として利用している部分しか完全には吸い出せていない。

このディスクを展開すると、80GBかっちりありました。(これはかなり時間かかりました)
しかし、カーネルだとか、起動用のイメージなどが無いわけで、swapもない。
むむむ、どうしようか思案。

Redhat環境を構築

そこで、まずはRedhat 9を起動できる環境を作成する。
探してみると、さすがオープンソース。未だにCDイメージが配布されている。3枚構成なのですべてダウンロード。

適当なHDDサイズを可変で作成して、インストール。
何も問題なく、起動まで進む。

今度は、吸いだしたデータディスクをmountし、ここに/bootなどを作成し、インストールしたばかりのディスクから、コピーする。

この吸い出したディスクからブートしてやれば、今まで通り動くのでは?という発想。
ただし、swapはパーティションを切り直す必要があるので、それはしたくない。

ということで、可変で新規に作成したDiskのswap領域だけは、そのまま利用することにする。
つまり、こんな感じ。
hda1・・・/boot
hda2・・・/swap
hda3・・・/
hdb1・・・旧サーバの/(/boot以外)

だったのを、
hda1・・・使用せず
hda2・・・swap
hda3・・・使用せず
hdb1・・・/
この状態で、ブートイメージはパーティションにせず、hdb1内にコピーした/bootを利用する。

この設定をgrubを利用して設定する。
実際にmountして、ディレクトリを確認すると、ちゃんと見えているのに、起動すると、思い通りにならず、使用しないはずの領域を利用して、起動してしまう。
調べてみると、/etc/fstabの内容がこんな風になっている(デフォルト)

LABEL=/  /  ext3 default 1 1
LABEL=/boot /boot ext3 default 1 2

これは、ドライブ構成が変わっても、記述を変えなくても良いようになっているわけだが、LABELを使用しなければ、/dev/xxxと記述すべき所。

分かりました!!
最初に作ったパーティションにラベルが設定されているのが、原因ですな。
# e2label /dev/hda1 ""
# e2label /dev/hda3 "" 
として、LABELを削除する。
これで、再起動すると、grubの設定通り起動してくれるようになった。

fstabを書き直すのもありだけど、実際と異なるLABELが残っているのは気持ち悪いので、良しとしよう。

ネットワークが認識しない

起動して動いたなと思ったら、NICが動いていない。
ifconfigで確認するも、eth0自体無い。

dmesgやsyslogを見ると、どうやらモジュールが読み込めていない。
modprobeしても、ダメだと言われる。

よく調べたら、古いサーバのboot内はvmlinuz-2.4.20-8/initrd-2.4.20-8.imgを利用しているのだけれど、moduleは20-6の物しか置いていない。

どうやら、前の担当者はkernelのみ新しいものに置換えたらしい。
でもって、環境が変わってNICが異なるため、モジュールを読み込もうとするけれど、kernelのバージョンと合わないため、読み込めないらしい。

ということで、さっきインストールしたばかりのディスクで立ち上げ、/lib/modules/以下に2.4.20-8フォルダをコピーする。

再度、ディスクの設定をして、起動する。
# modprobe e1000
OK無事に、NICを認識した。
ifconfigでupして見る。DHCPからIPを拾ってきている。

あとは、サーバの時と同じIPを固定で割り振り、起動時にeth0がupするように、設定しなおして完了。

はぁ、書くとすんなり行ったように見えるかもしれないけれど、結構泥沼にハマった感じで、苦戦しました。

見えるはずのものが見えないとか、動くはずのものが動かないとか…。

最近、こんな泥臭い作業をあまりしていないので、疲労しましたゎ。
実質3時間ほど、設定だけにかかりました。トホホ。

でも、思い通りに動いた時は、「やった!」と声を出してしまいましたが…。



 

コメント

このブログの人気の投稿

Ubuntu24.04 でGUIが死んだ

VirtualBoxが異常

MEGAにも弱点があった?