投稿

ラベル(Redhat)が付いた投稿を表示しています

たまに掃除は必要!熱暴走…

イメージ
 そんなに暑くないのに… 本日、午前中にオンラインで打合せをしていると、突然マシンがダウン。 一瞬、停電か?と思ったもののディスプレイの電源は入っている。 あれっ?と思い、すぐさまノートで打合せを継続。 その間に、再度マシンの電源を投入。 問題なく起動する。 でも、CPU温度がたまたま目に入り、95℃を超えて徐々に上昇していく。 105℃あたりで再度マシンダウン。 これは、熱暴走によるダウンの可能性が高い。 以前、CPUをRyzen7→9にした頃は、60℃〜70℃程度だった記憶がある。 本当はGW中にSSDの載せ替えを行う予定だったけれど、忙しくて先延ばしにしていた。 その時やっていれば、多分掃除もしただろうに…。 ということで、午後からマシンを解体し、掃除をすることに。 ケース本体のFANはホコリがかなり溜まっている。 GPUのFANは問題ない。 電源とCPU FANはひどい。 一旦、CPU FANを取り外し、きれいにする。ついでにCPUグリスも塗り直しセット。 動作確認すると、投入直後で40℃台。 そりゃ、熱暴走も起こすわけだ。 せっかくバラしたので、SSDの載せ替えを実施。 OSは500GBで、ユーザ領域(/home)は1TBを使用しているもののAIのmodelをいくつも落としていたり、DockerのImageが多種置いてあるため、結構容量を食っている。 今回、2TBのSSD( Hanye SSD ¥17,800- で入手済)を用意してあるので、 1TB→2TB, 500GB→1TBと玉突きで移動させることを計画していたので実施する。 本当は、ddコマンドで移すつもりだったのだけれど、3月にお客さんのところで使いそうだったので、 ORICOのクローン機能付SSDアダプタ を入手済。 裸族のSSD版ですね…。1万円程度の品です。 これに、新品のSSDとこれまでの1TBのSSDを差し込んでクローン開始。 そこそこ時間はかかるものの、放置でOK。 ただ、HanyeのSSDについているヒートシンクが引っかかるため、一旦取り外してクローン後取り付ける必要があった。 続いて、500GB→先程の1TBに書き込み。 ただ、1TB(samsungの980pro)が、先程のクローンでかなり熱くなっていたため、速度低下が激しい感じ。1TB→2TBよりも時間がかかった感じ。 ...

p2vでの仮想化完了

イメージ
Redhatからのデータ リプレイスのためのサーバ上のディスクデータは、吸い出すことが出来た。 今度は、このデータを元に仮想環境で動作させることになる。 前回の作業で、/bootには問題が多々あり、データ領域として利用している部分しか完全には吸い出せていない。 このディスクを展開すると、80GBかっちりありました。(これはかなり時間かかりました) しかし、カーネルだとか、起動用のイメージなどが無いわけで、swapもない。 むむむ、どうしようか思案。 Redhat環境を構築 そこで、まずはRedhat 9を起動できる環境を作成する。 探してみると、さすがオープンソース。未だにCDイメージが配布されている。3枚構成なのですべてダウンロード。 適当なHDDサイズを可変で作成して、インストール。 何も問題なく、起動まで進む。 今度は、吸いだしたデータディスクをmountし、ここに/bootなどを作成し、インストールしたばかりのディスクから、コピーする。 この吸い出したディスクからブートしてやれば、今まで通り動くのでは?という発想。 ただし、swapはパーティションを切り直す必要があるので、それはしたくない。 ということで、可変で新規に作成したDiskのswap領域だけは、そのまま利用することにする。 つまり、こんな感じ。 hda1・・・/boot hda2・・・/swap hda3・・・/ hdb1・・・旧サーバの/(/boot以外) だったのを、 hda1・・・使用せず hda2・・・swap hda3・・・使用せず hdb1・・・/ この状態で、ブートイメージはパーティションにせず、hdb1内にコピーした/bootを利用する。 この設定をgrubを利用して設定する。 実際にmountして、ディレクトリを確認すると、ちゃんと見えているのに、起動すると、思い通りにならず、使用しないはずの領域を利用して、起動してしまう。 調べてみると、/etc/fstabの内容がこんな風になっている(デフォルト) LABEL=/  /  ext3 default 1 1 LABEL=/boot /boot ext3 defaul...

Diskのエラー RedHat 9

あまりに苦戦したので、忘れる前に記録しておこうと思う。 古き良き時代のRedHat 古いサーバが、調子が悪いということだったので、まずは先週確認に。 時々反応がなくなるので、強制的にリセットしているとのこと。 早速、調査。 RedHat 9 shrikeであることが判明。 旧の担当者は居ないので、マシンから読み取るしかなさそう。 Webシステムが起動しているということなので、調べてみるが、apacheは起動していない。 Tomcatは起動している。 ということは、Tomcatがwebサービスを提供しているっぽい。 まあ、java中心のシステムなら、それもありうる。 今回は事前の作業 サーバをリプレイスすることで検討しているのだけれど…。 新しいマシンに、現在動いているシステムのソフトを載せても、どうやら動きそうにない。 OSのバージョンも、Tomcatのバージョンも異なるし…。DBもバージョンが違いすぎる。 乗っているシステムは、オリジナルだし…。完全なソースが残っていないという。 そこで、p2vで仮想化する方向で…。 マシン全体を仮想化して、新ハードウェア上で動かしてしまおうという計画にした。 そのため一旦ディスクの中身をコピーして持ち帰ろうと、今週作業に入った。 logをチェックしてみると、Errorが頻発している。dmesgではエラーしか見られない。 先週よりも、増えているような気がする。 コンソールで触っていても、エラーを吐いてくる。 内容は、Diskがおかしいらしい。 inodeが異常…。 よく止まらずに動いていたもんだ。 起動時の様子が見たいので、rebootしてみる。 BIOSの後、AdaptecのRAIDカードを認識している。 PXEブートしようとして、できていない。 grubを使って起動している。 ふむふむ、懐かしい文字があちこちに…。 しかしsyslogを見ると、何だかおかしい。 ハードウェアのRAIDが使われていないっぽい。 Disk構成は、80GB×2のみ・・・。 あれ?BootDiskは? 再度起動を確認すると、No Logical Disk〜とか出てるし。 ...