たまに掃除は必要!熱暴走…

イメージ
 そんなに暑くないのに… 本日、午前中にオンラインで打合せをしていると、突然マシンがダウン。 一瞬、停電か?と思ったもののディスプレイの電源は入っている。 あれっ?と思い、すぐさまノートで打合せを継続。 その間に、再度マシンの電源を投入。 問題なく起動する。 でも、CPU温度がたまたま目に入り、95℃を超えて徐々に上昇していく。 105℃あたりで再度マシンダウン。 これは、熱暴走によるダウンの可能性が高い。 以前、CPUをRyzen7→9にした頃は、60℃〜70℃程度だった記憶がある。 本当はGW中にSSDの載せ替えを行う予定だったけれど、忙しくて先延ばしにしていた。 その時やっていれば、多分掃除もしただろうに…。 ということで、午後からマシンを解体し、掃除をすることに。 ケース本体のFANはホコリがかなり溜まっている。 GPUのFANは問題ない。 電源とCPU FANはひどい。 一旦、CPU FANを取り外し、きれいにする。ついでにCPUグリスも塗り直しセット。 動作確認すると、投入直後で40℃台。 そりゃ、熱暴走も起こすわけだ。 せっかくバラしたので、SSDの載せ替えを実施。 OSは500GBで、ユーザ領域(/home)は1TBを使用しているもののAIのmodelをいくつも落としていたり、DockerのImageが多種置いてあるため、結構容量を食っている。 今回、2TBのSSD( Hanye SSD ¥17,800- で入手済)を用意してあるので、 1TB→2TB, 500GB→1TBと玉突きで移動させることを計画していたので実施する。 本当は、ddコマンドで移すつもりだったのだけれど、3月にお客さんのところで使いそうだったので、 ORICOのクローン機能付SSDアダプタ を入手済。 裸族のSSD版ですね…。1万円程度の品です。 これに、新品のSSDとこれまでの1TBのSSDを差し込んでクローン開始。 そこそこ時間はかかるものの、放置でOK。 ただ、HanyeのSSDについているヒートシンクが引っかかるため、一旦取り外してクローン後取り付ける必要があった。 続いて、500GB→先程の1TBに書き込み。 ただ、1TB(samsungの980pro)が、先程のクローンでかなり熱くなっていたため、速度低下が激しい感じ。1TB→2TBよりも時間がかかった感じ。 ...

ファイルサーバが死んだ

客先のLinuxマシンが突然死

少し前(といっても先月末)の事だけれど、保守を受けている客先のファイルサーバがある。(Ubuntu12.04)

これ導入して約5年(しかもサーバ機ではなく、フルタワーのPC)、そろそろ時期的に心配になってきているので、昨年からリプレイスを提案し、見積も出し説明もしていたのだが、一向にGoサインが出ないので、そのまま運用していた。

これが、月曜朝に起動しておらず、ファイルサーバが利用できないと電話が入った。
リモートで見ると、電源が落ちているっぽい。

電源を入れなおしてもらうが、しばらくするとやはり切断してしまう。



仕方なく確認に出向いたら、起動はするものの1時間弱で電源が落ちてしまう。

予兆もなく突然こんなにおかしくなることは珍しいので、事情を聴いてみると、前日にビル内電気保安の関係で、1時間ほど停電があったとの事。

しかし、UPSも置いているしおかしいなぁと思って確認すると、何故か一般のタップにさされている…。なぜだぁ〜。
ディスプレイはUPSなのに、本体がUPS通っていない。

意味ないし。

自分で設置した時には、UPSにしているので誰かが、いつの時点で差し替えている。
そして、停電…。

まぁ、劣化による故障かもしれないけれど、怪しい。


といっていても、仕方ないので、再度準備をして訪問する。

新サーバを手配するが3週間程かかる

事情が分かったものの、マシンなしではどうしようもない。
新規にオーダーをかけるけれど、BTOなのでShipping期間も入れると最低でも2週間。下手すりゃ3週間かかる。

それまで、業務で使っていたファイルが利用できないのは問題有りなので、なんとかする必要がある。

クライアントを1台潰して、代替機にするか…。
インストールが手間だしなぁ。

そこで、HDDのみ抜き出して、自前の旧ノートPCをサーバ代わりに設定してみる。
ThinkPad X200(Core2Duo)だが、SSD・メモリ増強済。

優先LANも無線LANも利用できるし、今は予備機として利用頻度は低いので、試してみた。

ただ、入っているのが16.04なので、samba周りの設定や、ユーザの切り直しなど少々手間がかかりそう。

そこで外付けのHDDから起動してみることにした。



作戦は見事成功!

一時的な運用なので、剥き出しで稼働させることに。
しかも、旧サーバのHDDで起動したので、何も設定を変更する必要なし。

あぁ。ユーザの設定とか、ファイルのコピーとか、面倒な作業は一切しなくて良くなった。
幸せ〜。

あとは、新サーバが来るまで無事に稼働してくれれば御の字。


しかしトラブル発生

1週間は問題なく稼働していたが…。

今朝、電話が入る。
またもやファイルサーバが見えないとのこと…。

おかしい、先週末まで何も問題なく安定稼働していたのに。なぜだぁ〜
リモートでも見えない…orz

どうも、何らかのErrorメッセージを吐いているらしいが、担当者が詳しくない(というか読む気がない)ので、何も伝わってこない。

結局現地に赴くことに。

HDDがマウントできないと言っている。
はて? 通常の運用でそんなことは起きないはずだが、昨夜は雨も激しかったが、雷も激しかったので瞬断か、過電流でも流れてブレーカーが落ちたか…。
でなきゃ、起動時のエラーが発生するわけがない。


まあ、Errorログを見ながら対処していく。
tmpがマウントできないと…。
以前はこんなメッセージ出ていなかったと思うのだけれど…。(記憶にない)

仕方なく、
# mv /tmp /tmp_old
# mkdir /tmp
# chmod 1777 /tmp
で、再起動。

12.04では良く聞くトラブルなので、すぐに解決。

これで、問題なく起動したので様子を見るが、ネットワークが利用できない。
一体何が起こったのか…。

# ifconfig
では、loしか表示されない。

はて? 手動でifupするも、eth0なんて無いと起こられる…。

/etc/network/interfaces
を確認しても、問題なく設定されているし、eth0も自動起動になっている。

# lshw -C network
で確認してみると、eth0は無くて、eth1になっている????

なんでじゃ〜。

今は、原因追及よりも復旧が優先なので、とりあえず
interfacesの書き換え、smb.confの書き換えを行い再起動。

これで、無事にネットワークは接続され、他のクライアントマシンからも接続できるのを確認して完了。

それでも、開始から2時間かかってしまった。

もう1度設定作業が待っている

新サーバへの移行作業が残っている。
今度は、ADサーバとFileサーバを1台にまとめるということになったので、LinuxなしでWindowsサーバをファイルサーバにしなくてはならない。

今から、以降の手順を検討しておかないと、またハマりそうで少々不安。
ま、来週作業の予定だから、少し時間あるので、要検討ですな…。


コメント

このブログの人気の投稿

Ubuntu24.04 でGUIが死んだ

VirtualBoxが異常

MEGAにも弱点があった?