Welcome to TechNet Blogs Sign in | Join | Help

Shigeya Tanabe's blog

田辺茂也 (IT Pro エバンジェリスト)

News

  • Twitter

    ブックマーク

    連絡先


    コミュニティにおけるマイクロソフト社員による発言やコメントは、マイクロソフトの正式な見解またはコメントではありません。

    お知らせ


    Clicky

[Win7 Tips] 画像内のテキストの検索に挑戦

Windows Vista 以降デスクトップ検索機能が搭載され、コンピューター内で探し物をする際に、とても便利になりました。Windows 7 では Windows Search 4.0 が搭載され、ライブラリ機能などとも相まって、ローカル・リモートの区別なく同様に検索できるようになりました。

ところで、「Windows の機能の有効化または無効化」の中の、「Windows TIFF IFilter」という項目にお気付きでしょうか?

image

IFilter とは、Windows Search でさまざまな形式のファイルのインデックスを作成するために利用されるフィルターです。詳細な説明をみると、「光学式文字認識を使用する Tagged Image File Format (TIFF) ファイルのインデックス作成と検索を有効にします。」とあります。つまり、TIFF 形式の画像ファイルから OCR でテキスト情報を取りだし、検索可能にするフィルターです。

早速試してみましょう。テストのため、ブログのページを印刷し、スキャナーで読み込みました。

image

OCR の性能を比較するため、英語のブログ (Engineering Windows 7) と、日本語のブログ (当ブログ) をスキャンしました。

「Windows TIFF IFilter」を有効化し、上記 TIFF ファイルを、インデックス作成対象になっているフォルダに置きました。まずは、両方に含まれている "blogs" という単語を検索してみます。

 image

いずれのファイルも検索できました。日本語ではどうでしょうか。

image

日本語の「互換性」というキーワードでヒットしました。なかなか好調です。

気になるのは OCR でどの程度正確に認識できているのかということです。filtdump.exe という IFilter の開発用のコマンドを使って、OCR の結果を見てみます。(filtdump.exe は Microsoft Windows Search 3.x SDK に入っています。または、今後公開される Windows 7 / Windows Server 2008 R2 SDK にも含まれる予定です。)

まずは英語の方から。元記事はこちらです。(スキャンしたものは、印刷用のスタイルシートが適用されているので、レイアウトが異なります。)

 image

まずまずの認識率ではないでしょうか。検索に使った場合でも、そこそこヒットしそうに思えます。では日本語のほうはどうでしょうか。元記事はこちら

image

いかがでしょうか。個人的には予想以上の認識率でした。もちろん、印刷したものをスキャンするという好条件での OCR ですので、いろいろな条件で試すと結果も変わってくるとは思いますが、この画像内検索、ちょっと便利な機能ではないでしょうか。

Posted: Friday, July 24, 2009 4:47 PM by Shigeya Tanabe
Filed under:

Comments

No Comments

Anonymous comments are disabled
Page view tracker