投稿

ラベル(eth0)が付いた投稿を表示しています

たまに掃除は必要!熱暴走…

イメージ
 そんなに暑くないのに… 本日、午前中にオンラインで打合せをしていると、突然マシンがダウン。 一瞬、停電か?と思ったもののディスプレイの電源は入っている。 あれっ?と思い、すぐさまノートで打合せを継続。 その間に、再度マシンの電源を投入。 問題なく起動する。 でも、CPU温度がたまたま目に入り、95℃を超えて徐々に上昇していく。 105℃あたりで再度マシンダウン。 これは、熱暴走によるダウンの可能性が高い。 以前、CPUをRyzen7→9にした頃は、60℃〜70℃程度だった記憶がある。 本当はGW中にSSDの載せ替えを行う予定だったけれど、忙しくて先延ばしにしていた。 その時やっていれば、多分掃除もしただろうに…。 ということで、午後からマシンを解体し、掃除をすることに。 ケース本体のFANはホコリがかなり溜まっている。 GPUのFANは問題ない。 電源とCPU FANはひどい。 一旦、CPU FANを取り外し、きれいにする。ついでにCPUグリスも塗り直しセット。 動作確認すると、投入直後で40℃台。 そりゃ、熱暴走も起こすわけだ。 せっかくバラしたので、SSDの載せ替えを実施。 OSは500GBで、ユーザ領域(/home)は1TBを使用しているもののAIのmodelをいくつも落としていたり、DockerのImageが多種置いてあるため、結構容量を食っている。 今回、2TBのSSD( Hanye SSD ¥17,800- で入手済)を用意してあるので、 1TB→2TB, 500GB→1TBと玉突きで移動させることを計画していたので実施する。 本当は、ddコマンドで移すつもりだったのだけれど、3月にお客さんのところで使いそうだったので、 ORICOのクローン機能付SSDアダプタ を入手済。 裸族のSSD版ですね…。1万円程度の品です。 これに、新品のSSDとこれまでの1TBのSSDを差し込んでクローン開始。 そこそこ時間はかかるものの、放置でOK。 ただ、HanyeのSSDについているヒートシンクが引っかかるため、一旦取り外してクローン後取り付ける必要があった。 続いて、500GB→先程の1TBに書き込み。 ただ、1TB(samsungの980pro)が、先程のクローンでかなり熱くなっていたため、速度低下が激しい感じ。1TB→2TBよりも時間がかかった感じ。 ...

ファイルサーバが死んだ

イメージ
客先のLinuxマシンが突然死 少し前(といっても先月末)の事だけれど、保守を受けている客先のファイルサーバがある。(Ubuntu12.04) これ導入して約5年(しかもサーバ機ではなく、フルタワーのPC)、そろそろ時期的に心配になってきているので、昨年からリプレイスを提案し、見積も出し説明もしていたのだが、一向にGoサインが出ないので、そのまま運用していた。 これが、月曜朝に起動しておらず、ファイルサーバが利用できないと電話が入った。 リモートで見ると、電源が落ちているっぽい。 電源を入れなおしてもらうが、しばらくするとやはり切断してしまう。 仕方なく確認に出向いたら、起動はするものの1時間弱で電源が落ちてしまう。 予兆もなく突然こんなにおかしくなることは珍しいので、事情を聴いてみると、前日にビル内電気保安の関係で、1時間ほど停電があったとの事。 しかし、UPSも置いているしおかしいなぁと思って確認すると、何故か一般のタップにさされている…。なぜだぁ〜。 ディスプレイはUPSなのに、本体がUPS通っていない。 意味ないし。 自分で設置した時には、UPSにしているので誰かが、いつの時点で差し替えている。 そして、停電…。 まぁ、劣化による故障かもしれないけれど、怪しい。 といっていても、仕方ないので、再度準備をして訪問する。 新サーバを手配するが3週間程かかる 事情が分かったものの、マシンなしではどうしようもない。 新規にオーダーをかけるけれど、BTOなのでShipping期間も入れると最低でも2週間。下手すりゃ3週間かかる。 それまで、業務で使っていたファイルが利用できないのは問題有りなので、なんとかする必要がある。 クライアントを1台潰して、代替機にするか…。 インストールが手間だしなぁ。 そこで、HDDのみ抜き出して、自前の旧ノートPCをサーバ代わりに設定してみる。 ThinkPad X200(Core2Duo)だが、SSD・メモリ増強済。 優先LANも無線LANも利用できるし、今は予備機として利用頻度は低いので、試してみた。 ただ、入っているのが16.04なので、samba周りの設定や、ユーザの切り直しなど少々手間がかかりそう。 そこ...