メールサーバの移行

イメージ
 自前のメールサーバを停止 これまで、自ドメインのメールサーバはVPS上に構築していた。 ・Ubuntu Server ・Postfix ・Dovecot ・spamAssassinと、BlackListの利用 Spam対策を行ってきたし、サーバ上でメールをトリガーにして各種プログラムを動かしたりしてきた。 メールサーバのメンテナンスは結構面倒くさくて、  ・Disk容量のチェック  ・不正アクセスのチェック  ・各種セキュリティパッチの適用 など、手間がかかる。 そこで、外部のサーバを利用することに…。 結構安くて使い勝手の良さそうなのが、「さくらのメールボックス」 3年契約で、3070円とな…。  メールアドレスは自分のだけなので、20GBまで利用可能!  (Gmailより大きいねぇ) ということで、早速契約。 アカウント設定を行って、既存のDNSを書き換える。WHOISも書き換えて完了。 SMTPとIMAPが利用できればOK。 ちょうど、GoogleがSPF設定していないと受信しないし、DKIMおよびDMARCに対応していないメールを弾くようになったので、対応しているのを確認。 さくらサーバ自体は、これまでお客さんのサーバとして何件も利用しているので、利用方法も難しくはない。  Webメールにも対応しているので、いざという場合にもありがたい。 ということで、各メールソフトの設定を変更。  PC(常時使用する3台)とタブレット、スマートフォンと台数は多いがそれ程手間はかからない。 問題は、旧サーバで送受信したメールの履歴だけれど、これはThunderbrdを使ってローカルに保存することで回避。  本当は、サーバtoサーバでMailboxに残そうとも考えたんだけど、古いメールはそれ程必要ないし、ローカルにバックアップしてあれば凌げるので、良しとする。 移行時にDNSの反映で若干時間がかかったものの、問題なく送受信できるのを確認して、作業完了。  これでメンテナンスの手間が減るので、安いもんです。

perlで不要なタグを削除

素人すぎですよ

製作途中で放置されているサイトの依頼を受けて、少し前からチェック等していましたが…。
確かに、それなりに表示されているものの、中身がひどくてメンテナンスをどうやるか悩むレベル。

いろんな情報を提供する目的なんだろうけど、元のファイルをコピーして書きなおしている感じで、DBも使わず、サーバサイドで処理もせず、CSSもほぼなし。
ざっと300ファイル(全部html)で、やたらと全角スペースでレイアウトされているstaticなページ。

これを直すのは正直嫌です。
しかも、各ファイルの先頭に
<script type="text/javascript">if ((navigator.userAgent.indexOf('iPhone') > 0 &&navigator.userAgent.indexOf('iPad') == -1) ||navigator.userAgent.indexOf('iPod') > 0 || navigator.userAgent.indexOf('Android') > 0) {location.href = '/smartphone/';}</script>
そして、smartphoneフォルダには何もない。
だから、PCと同じページを見に来るとNot Found多発地帯という地雷まで完備。

この設計意味が分かりません。変更が発生した場合は、どうするつもりだったんでしょう???
1つずつ直すのか?それとも、何かジェネレータプログラムが作ってあって、ガシガシと吐き出しているのだろうか?

スマートフォンでも見えるように修正

まずは、現状のhtmlを見せれば、not foundは解決するので、scriptを無効にしたい。

とはいっても、300も1つ1つ直すのはコンピュータ使いのやることじゃない。

ここはperlでサクッと処理したい所。
調べてみると、TreeBuilderが良さそう。こんなことがなきゃ、この手のライブラリを使うことも無いだろうなんて思いながら、テストコードを書いてみる。
 # perl -MCPAN -e shell
でHTML::TreeBuilderをインストール。
結局XPathも使おうかと思ったけれど、不要だった。

結構、簡単にパース処理してくれて、特定のタグだけをfindして削除とか、置換とかできるようなので、一気に書き上げる。

#!/usr/bin/perl

use strict;
use utf8;
use HTML::TreeBuilder;
use HTML::TreeBuilder::XPath;
use Encode::Guess;
use File::Copy;

# main
foreach my $filename(@ARGV){ 
    convert_html($filename);
    
}

sub convert_html{
    my $filename = shift @_;
    open( IN, "<$filename" );
    local $/ = undef;
    my $html = <IN>;
    close(IN);
    
    $html =~s/charset=Shift_JIS/charset=utf-8/;
    
    my $decoder = guess_encoding($html,qw{shift_jis euc-jp jis});
    my $decoded = $decoder->decode($html);
    
    my $h = HTML::TreeBuilder->new;
    
    $h->parse($decoded);
    $h->eof;
    
    for my $node ($h->findnodes('//script')){
        $node->delete();
    }
    $html = $h->as_HTML("<>&", "  ",{});
    $h->delete;
    
    move $filename,"$filename.orig" or die;
    open(OUT,">$filename");
    print OUT $html;
    close(OUT);
}

$htmlにファイルをまとめて読み込んで処理する流れ。

元のファイルはShift-jisなんで、こいつはutf-8に変更する。ついでにmetaタグも直しておかねば…。
<meta http-equiv="Content-Type" content="application/xhtml+xml; charset=Shift_JIS" />
を書きなおしておこう。
$html =~s/charset=Shift_JIS/charset=utf-8/;
これは、単なる置換で処理。

でもって、scriptタグを見つけては、すべてdeleteする。$node->delete()の部分です。

最後に、元のファイルは.origを付けて保管し、処理したhtmlを元の名前で吐き出して終了。

あとは、コマンドラインからfindかけて、ファイル名を流し込んで終了。
とりあえず、2〜3ファイルを食わせて、問題ないのを確認。

自分で使うツールなので、細かなエラー処理とか一切なしモード。
確認ができたので、一気に、全部行きます。
$ find ./dir -name '*.html' | xargs perl del_script.pl
はい、これで完了しました!!

こんなの、手作業で直してたら、気が狂うわ。

参考にした所


  • http://yoshiiz.blog129.fc2.com/blog-entry-382.html
  • http://d.hatena.ne.jp/metalglue/20100126/1264492726


コメント

このブログの人気の投稿

WPS Officeで日本語入力ができない

VirtualBoxでUSBから起動

Virtualboxとnvidiaドライバ