Umi-OCRでスキャンPDFからテキストを抽出する方法
Umi-OCRを使ってスキャンPDFからテキストを抽出し、検索可能なPDFを作成し、複数ファイルを効率的にバッチ処理する方法を解説します。
スキャンされたPDF文書は、基本的にPDFコンテナに包まれた画像です。通常のPDFのようにテキストを選択・コピーすることができないため、テキスト内容を抽出するにはOCR技術が必要です。Umi-OCRはこのタスクに対して、強力で無料、完全オフラインのソリューションを提供します。
ステップバイステップガイド
1. Umi-OCRを開き、「バッチ処理」タブに移動します。
2. PDFファイルをファイルリストエリアにドラッグ&ドロップします。
3. 出力形式を選択:プレーンテキストまたは検索可能な二層PDFが選べます。
4. 開始ボタンをクリックして処理を開始します。
二層PDFでは、上層にオリジナルのスキャン画像が保持され、下層に認識されたテキストが配置されます。見た目は元のスキャンと同じですが、テキストの検索やコピーが可能になります。
バッチ処理
Umi-OCRはバッチ操作をサポートしています。フォルダごとインターフェースにドラッグできます。数十〜数百のドキュメントのOCR処理が必要なデジタル化プロジェクトに特に便利です。
ベストな結果のためのヒント
• 300 DPI以上でスキャンしてください。
• ページがまっすぐに揃っていることを確認してください。
• 100以上の言語をサポート、多言語混在コンテンツも自動処理されます。
まとめ
スキャンPDFからのテキスト抽出は複雑である必要はありません。Umi-OCRは、あなたのコンピュータ上で動作する、シンプルで強力、完全無料のソリューションを提供します。データのプライバシーを守りながら効率的に処理できます。