たまに掃除は必要!熱暴走…

イメージ
 そんなに暑くないのに… 本日、午前中にオンラインで打合せをしていると、突然マシンがダウン。 一瞬、停電か?と思ったもののディスプレイの電源は入っている。 あれっ?と思い、すぐさまノートで打合せを継続。 その間に、再度マシンの電源を投入。 問題なく起動する。 でも、CPU温度がたまたま目に入り、95℃を超えて徐々に上昇していく。 105℃あたりで再度マシンダウン。 これは、熱暴走によるダウンの可能性が高い。 以前、CPUをRyzen7→9にした頃は、60℃〜70℃程度だった記憶がある。 本当はGW中にSSDの載せ替えを行う予定だったけれど、忙しくて先延ばしにしていた。 その時やっていれば、多分掃除もしただろうに…。 ということで、午後からマシンを解体し、掃除をすることに。 ケース本体のFANはホコリがかなり溜まっている。 GPUのFANは問題ない。 電源とCPU FANはひどい。 一旦、CPU FANを取り外し、きれいにする。ついでにCPUグリスも塗り直しセット。 動作確認すると、投入直後で40℃台。 そりゃ、熱暴走も起こすわけだ。 せっかくバラしたので、SSDの載せ替えを実施。 OSは500GBで、ユーザ領域(/home)は1TBを使用しているもののAIのmodelをいくつも落としていたり、DockerのImageが多種置いてあるため、結構容量を食っている。 今回、2TBのSSD( Hanye SSD ¥17,800- で入手済)を用意してあるので、 1TB→2TB, 500GB→1TBと玉突きで移動させることを計画していたので実施する。 本当は、ddコマンドで移すつもりだったのだけれど、3月にお客さんのところで使いそうだったので、 ORICOのクローン機能付SSDアダプタ を入手済。 裸族のSSD版ですね…。1万円程度の品です。 これに、新品のSSDとこれまでの1TBのSSDを差し込んでクローン開始。 そこそこ時間はかかるものの、放置でOK。 ただ、HanyeのSSDについているヒートシンクが引っかかるため、一旦取り外してクローン後取り付ける必要があった。 続いて、500GB→先程の1TBに書き込み。 ただ、1TB(samsungの980pro)が、先程のクローンでかなり熱くなっていたため、速度低下が激しい感じ。1TB→2TBよりも時間がかかった感じ。 ...

Folding@homeに参加

SETI@homeを思い出した

かれこれ20年ほど前だろうか…。

分散ネットワーク(各PCのCPUを少しずつ利用して巨大な計算を行なう)プロジェクトがあった。調べたら今も稼働しているらしいが。

当時、ネットワークが普及し始め、各自が使用しているマシンのアイドル時間を利用して、電波望遠鏡のデータを解析して、宇宙からのメッセージ(知的生命体)を見つけようというのが始まりだった。

ボランティアベースで、自分のマシンのCPUパワーを提供してごちゃごちゃ…。

結構、ランキング(要はどれだけのブロックを計算したかの順位)が上がるのだ楽しくて、空いているマシンに次々プログラムをぶち込んだ記憶が有る。


Folding@homeとは

これも、ボランティアベースで、各自のマシンの余剰能力を提供して、役にたてようという同じ考えのもの。

今は、コロナウイルスの治療に向けた解析を行なっている。
すでに、相当数の参加があって少し前のニュースでは、1E(エクサ)FLOPSを叩き出しているらしい。
(世界のスーパーコンピュータの上位100台の合算を上回る性能といえば分かるかな?)

新型コロナ解析で分散処理プロジェクト「Folding@home」が1EFLOPS超え

 さて、今回は自分のマシンも2台ほど参加させることにした。

1台はこれまでメインとして使用してきた、core-i5のubuntu。
もう1台は、現在のメインマシンのRyzen5のubuntu。

インストールは簡単で、プロジェクトサイトから自分の環境に合ったクライアントプログラムをダウンロードするだけ。
https://foldingathome.org/start-folding/
Linux版だと3つに別れている。Windows版だと1つのよう…。

  • fahclient_7.5.1_amd64.deb
  • fahcontrol_7.5.1-1_all.deb
  • fahviewer_7.5.1_amd64.deb


実行するだけなら、最初のclientだけでOK。

インストールすると、名前やTeam番号など聞いてくるが、デフォルトのままでもOK。
一応、名前だけ登録しておいた。

実行開始すると、サイトから各自の計算ブロックをもらい、Idling Timeを利用して計算を行なう。完了したら結果を送って、次のブロックを入手して…を繰り返すだけだ。

特に、何もすることはない。

動かしてみると

サービスとして稼働していて、ググっとCPUを計算に回し始めた。
なんと、100%近くまで処理が上がりぶん回してくれる。

core-i5は2コア2スレッドの仮想4コアすべてが100%をキープ。
Ryzen5は6コア2スレッドで仮想12コアが100%に。
どうやらGPUも回している様子。

でもって、本体のFanがゴーゴー言い出した。

その分計算はたしかに早い。
1%計算するのに、だいだい40秒程度で完了している。

$ tail -f /var/lib/fahclient/log.txt

で確認していると、進み具合がよく分かる。

ただ、このまま動かし続けると、電力も相当消費するし、Fanが持たなくなりそう…
ということで、もう少し性能を下げることにする。

このプログラムはサービスで稼働しているので、以下のコマンドでCPUクォータを設定する。

$ sudo systemctl edit FAHClient.service

を使用して、/etc/systemd/system/FAHClient.service.d/override.conf を作成する。

[Service]
CPUQuota=400%

と設定した。これは12コアの場合、0〜1200%まで設定できる(最初これを0〜100%と思っていたので挙動が自分の思った通りにならず???ってなってたw)

この場合、全体のおよそ1/3程度のCPU能力を割り振ることになる。




どちらも、約33%程度を示している。
設定通りというわけだ。

この状態でログを見ると、1%処理するのに、約2分40秒(160秒)かかっている。
Ryzen5でこの程度。

core-i5は、CPUQuota=100%で設定している。
こちらは、やはり遅くて、1%処理するのに4分10秒(250秒)かかっている。
CPUQuota=133%にしたら、さすがに少し早くなった。(当たり前)
およそ、3分10秒程度(190秒)なので、まあ計算通りという感じ。

この程度だと、Fanはほぼ無音で静かに処理してくれるので、動いているのが気にならないレベル。
もちろん、負荷も1/3程度なので、普通の処理では気が付かない範疇。


ぜひ気楽に参加してみませう!

これで、ウイルスの治療法が少しでも早く見つかるのなら、いいんじゃないかな?と思っている。

すでに、かなりの成果が出始めているらしいので、自宅でWEBみたりYoutubeしたりしている裏で少しずつ貢献するのもありだな。




コメント

このブログの人気の投稿

Ubuntu24.04 でGUIが死んだ

VirtualBoxが異常

MEGAにも弱点があった?