イメージ
 Kindle Paperwhiteが故障 2023年の3月購入なので、1年の保証期間はとっくに過ぎている。 状況は、画面右端が充電後に表示欠けを起こすようになった。 最初は1cm程度だったのに、いまでは2cm程度表示できず、右端の文字が読めない状況に…。 さて、修理可能なのか不明なので、Amazonに問い合わせすることに…。 チャットで問い合わせを選択すると、すぐに担当者につながった。 日本人の名前ではなかったけれど、とても丁寧な対応でしっかり教育されている感じ。 結果的には、 ・修理対応は行っていない。 ・買い替えるしか手段はない。 しかも、同一機種はすでに無く、後継機種(画面が7インチにUp)しか選択できない。 さて、どうしようかとチャットしながら考えていたら、先方から提案が…。  再度、Kindle端末を購入されるのであれば、15%OFFのギフトを送る(登録)ってくれる。  ご検討くださいとのことだった…。 なるほど…。  いま Kindle端末 を見ると22,980円か〜。さらに15%OFFとなると、19,533円 迷うなぁ…。もうタブレットを使用しちゃおうかとも考えていたので…。 ギフトの期限は無いそうなので、しばらく悩んでみますゎ。

perlで不要なタグを削除

素人すぎですよ

製作途中で放置されているサイトの依頼を受けて、少し前からチェック等していましたが…。
確かに、それなりに表示されているものの、中身がひどくてメンテナンスをどうやるか悩むレベル。

いろんな情報を提供する目的なんだろうけど、元のファイルをコピーして書きなおしている感じで、DBも使わず、サーバサイドで処理もせず、CSSもほぼなし。
ざっと300ファイル(全部html)で、やたらと全角スペースでレイアウトされているstaticなページ。

これを直すのは正直嫌です。
しかも、各ファイルの先頭に
<script type="text/javascript">if ((navigator.userAgent.indexOf('iPhone') > 0 &&navigator.userAgent.indexOf('iPad') == -1) ||navigator.userAgent.indexOf('iPod') > 0 || navigator.userAgent.indexOf('Android') > 0) {location.href = '/smartphone/';}</script>
そして、smartphoneフォルダには何もない。
だから、PCと同じページを見に来るとNot Found多発地帯という地雷まで完備。

この設計意味が分かりません。変更が発生した場合は、どうするつもりだったんでしょう???
1つずつ直すのか?それとも、何かジェネレータプログラムが作ってあって、ガシガシと吐き出しているのだろうか?

スマートフォンでも見えるように修正

まずは、現状のhtmlを見せれば、not foundは解決するので、scriptを無効にしたい。

とはいっても、300も1つ1つ直すのはコンピュータ使いのやることじゃない。

ここはperlでサクッと処理したい所。
調べてみると、TreeBuilderが良さそう。こんなことがなきゃ、この手のライブラリを使うことも無いだろうなんて思いながら、テストコードを書いてみる。
 # perl -MCPAN -e shell
でHTML::TreeBuilderをインストール。
結局XPathも使おうかと思ったけれど、不要だった。

結構、簡単にパース処理してくれて、特定のタグだけをfindして削除とか、置換とかできるようなので、一気に書き上げる。

#!/usr/bin/perl

use strict;
use utf8;
use HTML::TreeBuilder;
use HTML::TreeBuilder::XPath;
use Encode::Guess;
use File::Copy;

# main
foreach my $filename(@ARGV){ 
    convert_html($filename);
    
}

sub convert_html{
    my $filename = shift @_;
    open( IN, "<$filename" );
    local $/ = undef;
    my $html = <IN>;
    close(IN);
    
    $html =~s/charset=Shift_JIS/charset=utf-8/;
    
    my $decoder = guess_encoding($html,qw{shift_jis euc-jp jis});
    my $decoded = $decoder->decode($html);
    
    my $h = HTML::TreeBuilder->new;
    
    $h->parse($decoded);
    $h->eof;
    
    for my $node ($h->findnodes('//script')){
        $node->delete();
    }
    $html = $h->as_HTML("<>&", "  ",{});
    $h->delete;
    
    move $filename,"$filename.orig" or die;
    open(OUT,">$filename");
    print OUT $html;
    close(OUT);
}

$htmlにファイルをまとめて読み込んで処理する流れ。

元のファイルはShift-jisなんで、こいつはutf-8に変更する。ついでにmetaタグも直しておかねば…。
<meta http-equiv="Content-Type" content="application/xhtml+xml; charset=Shift_JIS" />
を書きなおしておこう。
$html =~s/charset=Shift_JIS/charset=utf-8/;
これは、単なる置換で処理。

でもって、scriptタグを見つけては、すべてdeleteする。$node->delete()の部分です。

最後に、元のファイルは.origを付けて保管し、処理したhtmlを元の名前で吐き出して終了。

あとは、コマンドラインからfindかけて、ファイル名を流し込んで終了。
とりあえず、2〜3ファイルを食わせて、問題ないのを確認。

自分で使うツールなので、細かなエラー処理とか一切なしモード。
確認ができたので、一気に、全部行きます。
$ find ./dir -name '*.html' | xargs perl del_script.pl
はい、これで完了しました!!

こんなの、手作業で直してたら、気が狂うわ。

参考にした所


  • http://yoshiiz.blog129.fc2.com/blog-entry-382.html
  • http://d.hatena.ne.jp/metalglue/20100126/1264492726


コメント

このブログの人気の投稿

Ubuntu24.04 でGUIが死んだ

WPS Officeで日本語入力ができない

MEGAにも弱点があった?