Perform OCR with Google Docs – Turn Images Into Editable Documents
まだユーザーインターフェースそのものに組み込まれてはいないようですが、Google Docs に OCR 機能が追加されるのではないかという記事が Digital Inspiration で紹介されています。
この機能は Document List Data API の例として公開されているもので、こちらのフォームを利用して画像をアップロードすると、テキストが認識されて自動的に Google Documents に変換されます。
- 現在の所英数字のみ
- 画像はそれなりに高解像度の必要があります。1文字ごとに 10 px ほどの高さが目安
- ファイルサイズは最大 10 MB、25 メガピクセル
- ファイルサイズに従って時間がかかります。500K くらいなら 15 秒、2M なら 40 秒、10MB なら果てしなく時間がかかるとのこと
実際おいてある 600 KB の例を使ってみたところ、問題なく読み込むことができました。
「情報を飲み込みすぎだ」という批判が多い Google ですが、こうした、これまでデジタル化できていなかった過去の情報も利用可能になってゆくのは個人的には歓迎しています。
つい先日も、大学時代の若書きの原稿用紙数百枚をスキャンしたところですが、もしこれを自動的にデジタルにできるなら数万円をはらっても惜しくはありません。
また自分の本棚からも次々と本をデジタル化して iPhone に入れて読んだりしていますが、こうした場所取りなモノを捨てて情報そのものは捨てない、というスタイルは当面の情報過多をしのぐのに不可欠の手法です。
まさかスキャンしたドキュメントが自動的に Google Books のアーカイブに登録されてゆくというブラックジョークはないと思いますので、利用したい手書きのリソースが手元にある人は利用してみてはいかがでしょう。












Currently: View Comments
1 Catshop // Sep 30, 2009 at 8:29 am
ここしばらくのGoogleは地味に役立つスゴイこと(ホームランではなくヒット)が続いてますよね。いやはや。
処理速度(時間が掛かる)や解像度(もっと低いのを読みたい), 対応言語(当然、日本語を読ませたい)の問題がカイゼンされて、Google Appsにでも組み込まれたら「これを使いたい」ために、法人利用を始める企業もありそうな気がします。少なくともボクは使いたいです。
本記事へのコメントを入力してください