たまに掃除は必要!熱暴走…

イメージ
 そんなに暑くないのに… 本日、午前中にオンラインで打合せをしていると、突然マシンがダウン。 一瞬、停電か?と思ったもののディスプレイの電源は入っている。 あれっ?と思い、すぐさまノートで打合せを継続。 その間に、再度マシンの電源を投入。 問題なく起動する。 でも、CPU温度がたまたま目に入り、95℃を超えて徐々に上昇していく。 105℃あたりで再度マシンダウン。 これは、熱暴走によるダウンの可能性が高い。 以前、CPUをRyzen7→9にした頃は、60℃〜70℃程度だった記憶がある。 本当はGW中にSSDの載せ替えを行う予定だったけれど、忙しくて先延ばしにしていた。 その時やっていれば、多分掃除もしただろうに…。 ということで、午後からマシンを解体し、掃除をすることに。 ケース本体のFANはホコリがかなり溜まっている。 GPUのFANは問題ない。 電源とCPU FANはひどい。 一旦、CPU FANを取り外し、きれいにする。ついでにCPUグリスも塗り直しセット。 動作確認すると、投入直後で40℃台。 そりゃ、熱暴走も起こすわけだ。 せっかくバラしたので、SSDの載せ替えを実施。 OSは500GBで、ユーザ領域(/home)は1TBを使用しているもののAIのmodelをいくつも落としていたり、DockerのImageが多種置いてあるため、結構容量を食っている。 今回、2TBのSSD( Hanye SSD ¥17,800- で入手済)を用意してあるので、 1TB→2TB, 500GB→1TBと玉突きで移動させることを計画していたので実施する。 本当は、ddコマンドで移すつもりだったのだけれど、3月にお客さんのところで使いそうだったので、 ORICOのクローン機能付SSDアダプタ を入手済。 裸族のSSD版ですね…。1万円程度の品です。 これに、新品のSSDとこれまでの1TBのSSDを差し込んでクローン開始。 そこそこ時間はかかるものの、放置でOK。 ただ、HanyeのSSDについているヒートシンクが引っかかるため、一旦取り外してクローン後取り付ける必要があった。 続いて、500GB→先程の1TBに書き込み。 ただ、1TB(samsungの980pro)が、先程のクローンでかなり熱くなっていたため、速度低下が激しい感じ。1TB→2TBよりも時間がかかった感じ。 ...

大晦日にトラブル

何が起きたのか???

電源入れっぱなしのメインマシンが、おかしなエラーを吐き出した。
 
Dropboxが同期できない。
dropbox.shのパスワード認証…。

パスワードを入れるが、Dropboxが起動しない?
他にも、なんだか動きがおかしい。

久々に再起動を行っておくか…ポチッ

起動せず、以下のメッセージが…。

Welcome to emergency mode! After logging in, type "journalctl -xb" to view
system logs, "systemctl reboot" to reboot, "systemctl default" to try again
to boot into default mode.
Give root password for maintenance
(or type Control-D to continue):

ほほう。ctrl+Dで継続してみるが、同じメッセージが表示されるのみ。

メンテナンスモードに入るしかなさそうなので、[Enter]でメンテナンスモードに突入。
とはいえ、rootでshellが利用できるだけのようだ。

仕方なく、書かれているように journalctl -xb をかけてみるものの大量すぎる…。

ということで、grepを併用

#  journalctl -xb | grep error

12月 31 20:32:52 u2204r5 kernel: EXT4-fs (nvme0n1p2): re-mounted. Opts: errors=remount-ro. Quota mode: none.
12月 31 20:32:53 u2204r5 kernel: EXT4-fs (sda): warning: mounting fs with errors, running e2fsck is recommended
12月 31 20:32:53 u2204r5 kernel: EXT4-fs (nvme1n1): mounted filesystem with ordered data mode. Opts: errors=remount-ro. Quota mode: none.

おや? SSDがmountできていないっぽい。

やばいのかも?

ということで、定例のググって探すしかない。
ノートPCを持ってきて、探す。

同じような記事があった。
再起動後 Ubuntu が Emergency mode になった」ということで、まずはfsckをかけることに。

# fsck /dev/nvme1n1 -p

ところが「-p」は駄目よと言われたので、手動で確認しながら…
修復するかに対して[y]を押すだけの簡単なお仕事。
(fsck --help したら 大文字のPを指定する必要があるっぽい。ってだけのはなしか…)


何度か聞かれ、[y]を押し続ける。
最後迄チェックが完了した。

ここで再起動を行う。

無事に、起動した。

 ただ、壊れているファイルとかもあるかもしれないので、しばらく様子見です。


結論は、後から増設したSSDが、何らかの理由で壊れたっぽい。
で、こいつが/home にmountするようになっていたのだけれど、当然/homeが読めないので起動できないということらしい(自動Logonに設定しているからか…)

で、fsck で修復かけて、無事に動作するようになったようだ。

まぁ、様子見かな。


バックアップは取っているので、最悪戻すことも可能だけど、確認作業とか面倒なので、復旧できてよかった〜。

今年は、トラブルで終わった感じ。



コメント

このブログの人気の投稿

Ubuntu24.04 でGUIが死んだ

VirtualBoxが異常

MEGAにも弱点があった?