最近は、画像やらFlashやらを使って文字を表示しているサイトが増えたと思うんだ。
最近でもないか。
で、そんな文字列がイメージ化されたサイトを見て思ったんだけど、そういうサイトは文字列の検索ができないんだよね。ブラウザのテキスト検索機能を使っても。
私がfirefoxを好むかなりでかい理由のひとつに検索機能があります。
画面下の検索ボックスを使った検索が、当時(いつだよ)の検索機能としては超新しくて超便利で最高だった。今となっては多分他のブラウザでも似たような機能が使えたりするし、アドオンを入れればもっと良くなると思う。
(ちなみに、この検索機能はハイライト化させる機能も持っているんだけど、1語しかハイライト化できないので駄目。拡張探そう。)
んで、話を元に戻して文字列がイメージ化されたサイト。
典型的な文字列に限って文字列がイメージ化されているので、「この文字であたりをつければすぐに目的の情報を入手できるだろう」なんて思っていると痛い目にあうわけだ。
ちなみに、検索エンジンから探せなくなるんじゃないか?って話については、どうせ重要な単語はmetaタグなりなんなりで示してあったり、画像の脇にhiddenなりdisplay:none;な要素を置いておいたりすれば多分関係ない。
結局何が言いたいかというと、昨日部室でDebianのFreeBSDでいうところのPortsみたいなヤツを見ていた時にOCRってなんだっけ?とかいう話が出て、「OCRって昔はよく見かけた気がするけど最近はスキャナを使っていないので見かけないなぁ。そういえば画像を多用された作られたwebサイトってページのレンダリング結果をOCRにかけたら割と容易に情報抽出できるんじゃね?いろんな意味でノイズ多すぎて駄目だけど。」とか思ったというお話。
マジどうでもいいな。
とりあえず、後でfirefoxの検索機能を強化するプラグイン探そう。某TsukikageSystemの頻出単語ハイライトで遊んでいたら標準のハイライト機能がunkにしかみえなくなった。