たまに掃除は必要!熱暴走…

イメージ
 そんなに暑くないのに… 本日、午前中にオンラインで打合せをしていると、突然マシンがダウン。 一瞬、停電か?と思ったもののディスプレイの電源は入っている。 あれっ?と思い、すぐさまノートで打合せを継続。 その間に、再度マシンの電源を投入。 問題なく起動する。 でも、CPU温度がたまたま目に入り、95℃を超えて徐々に上昇していく。 105℃あたりで再度マシンダウン。 これは、熱暴走によるダウンの可能性が高い。 以前、CPUをRyzen7→9にした頃は、60℃〜70℃程度だった記憶がある。 本当はGW中にSSDの載せ替えを行う予定だったけれど、忙しくて先延ばしにしていた。 その時やっていれば、多分掃除もしただろうに…。 ということで、午後からマシンを解体し、掃除をすることに。 ケース本体のFANはホコリがかなり溜まっている。 GPUのFANは問題ない。 電源とCPU FANはひどい。 一旦、CPU FANを取り外し、きれいにする。ついでにCPUグリスも塗り直しセット。 動作確認すると、投入直後で40℃台。 そりゃ、熱暴走も起こすわけだ。 せっかくバラしたので、SSDの載せ替えを実施。 OSは500GBで、ユーザ領域(/home)は1TBを使用しているもののAIのmodelをいくつも落としていたり、DockerのImageが多種置いてあるため、結構容量を食っている。 今回、2TBのSSD( Hanye SSD ¥17,800- で入手済)を用意してあるので、 1TB→2TB, 500GB→1TBと玉突きで移動させることを計画していたので実施する。 本当は、ddコマンドで移すつもりだったのだけれど、3月にお客さんのところで使いそうだったので、 ORICOのクローン機能付SSDアダプタ を入手済。 裸族のSSD版ですね…。1万円程度の品です。 これに、新品のSSDとこれまでの1TBのSSDを差し込んでクローン開始。 そこそこ時間はかかるものの、放置でOK。 ただ、HanyeのSSDについているヒートシンクが引っかかるため、一旦取り外してクローン後取り付ける必要があった。 続いて、500GB→先程の1TBに書き込み。 ただ、1TB(samsungの980pro)が、先程のクローンでかなり熱くなっていたため、速度低下が激しい感じ。1TB→2TBよりも時間がかかった感じ。 ...

デスクトップ機はサーバ機ではないのだよ

PCの不調調査

「突然マシンの電源が落ちるようになった」との連絡を受けて、調査に。
先週くらいから、使用してログオフした状態のマシンが正常終了するでもなく、突然電源が切れるという。起動すると不正終了したとのメッセージが出る。

ふ〜む。先週Microsoftのセキュリティアップデートが適用されているので、ひょっとすると、その影響かも…と思いつつ現場へ急行。
基本的に、使用している時には落ちていないが、未使用時にいつの間にか落ちているらしい。

このマシンは、ショップ組立のAMD搭載フルタワーデスクトップ機。OSはVistaだ。システムを構築する前から利用していて、特定アプリケーションのSQLサーバ兼アプリケーションサーバとして動いていることからほぼ24時間運転している。以前は共有マシンでアカウントを切らずにメール送受信マシンとしても動いていた。
前回、システム導入にともなってアカウントごとにログインさせて、クライアントとして利用し始めたけれども、過去のアプリケーションサーバ等は触らぬマシンに祟り無しというスタンスで、その辺りは手を入れていない。

まずは、ログをチェックしてみる。
終了プロセスの痕跡はない。その後、起動した痕跡は残っている。
先週のアップデートは正しく適用されているし、アップデートによる不具合の報告も上がっていないから、こいつは除外。
さて…。変な常駐ソフトを削る。
msconfigでスタートアップ次の不要なプロセスの起動を停止。
しばらく様子を見るが、再現性はない。

本体をよく見ると…

背面の排気ファンが停止している??
ひょっとして、熱暴走か?と思いつつ足元から引きずり出すが、ホコリまみれ…。

筐体を開けてみると、中はそれ程埃を被っているわけではなかった。

側面の小排気ファンは動作するものの、背面の大型ファンは全く動かない状態。指で回しても動かない程度になっているから、随分前から止まっているようだ。
しかも、よくよくチェックするとCPUフィンに装着してあるファンも動かない。こちらは少し回してやるとヨロヨロと動いて、即停止。

さらに、NVIDIAのグラボのファンも停止している。
はあぁぁぁぁぁ〜。

原因はこれだ。かろうじて側面の小型ファンと電源ファンが風を送ってくれていたものの、CPUとグラボはチンチコチンに熱を持っている。
多分、ユーザが使用して、負荷が上がり作業終了。その間に熱がこもって落ちるという流れらしい。それが先週から急に暖かくなり、まだエアコンを入れるほどの暑さでないという状況がまずかったようだ。ギンギンに部屋を冷やしているような職場なら、多分落ちずに生きながらえてくれていたかも。

それは、それで怖いのだけれども、今回発覚して良かったのか悪かったのか…。

ファンの予備部品など当然ないので、お釈迦になった同型のマシンがないか確認すると、廃棄したマシンがあるというので、チェック。
マザーもCPUも異なるけれど、ケースだけは同じなので、ファンが回るのを確認して、背面のファンのみ取り換える。

グラボもいつ死んでもおかしくないので、オンボードのVideoに切り替える。
これで、しばらくは延命できそうだ。

このままだと、電源もCPUダメージを受けている危険性が高いし、高負荷がかかればCPUファンは停止しているので、落ちる可能性が高い。
事情を話して、急遽新しいマシンを手配することに…。

素人管理者からの質問

現在、一応管理している担当者はいるのだけれど、そこそこパソコンを自分で使っている少し詳しい程度の人。
「やっぱり普通のデスクトップは24時間運転すれば持たないんですかね?」って…。まあ善人の同様なスキルの人が、選択したマシンではあるのだけれど…。

そりゃ、そうでしょ。だてにサーバ機が高い訳じゃないんですよ…。各部品の信頼性も違えば、保守体制も違う。
安いマシンをサーバに使うなら、同じ型を複数台予備として確保するのが当然なんだけど、そこまで考えは回っていない。

しかもビジネス機にNVIDIAの後付グラボとか必要ないし…。ゲームでもする気だったんだろうか。オンボードでVGA出力持っているのに…。選択の基準がよく分からないですわ…。

と、ストレートに答えるのも憚られるので、「車の純正ナビも高いですよね?車内温度が70度〜80度になったり、走行中の振動があっても壊れないような作りになってるんですよ。2〜3万のポータブルナビを車中に設置したままだと、そんな訳にはいかないですよね?」とやんわり説明して終了。

今後の作業も大変

ハードの入れ替えは、購入すれば終わりだし、ドメインに参加させて最低限の設定をすればクライアントとしては利用できる。
問題は、よく分からない業務用のアプリケーションサーバと、SQLサーバのデータと環境の移行が、面倒そう。
といって、現在設置してあるWindows Serverに載せるのは、心配だし…。

なんて事を勘案して見積もらねばならず、厄介な事例ですわぁ。

デスクトップマシンはサーバマシンではないので、代わりに使うのならば、それなりの覚悟と予備部品の確保をしてくださいね〜。

コメント

このブログの人気の投稿

Ubuntu24.04 でGUIが死んだ

VirtualBoxが異常

MEGAにも弱点があった?