「PDFファイルの中の文字をコピペできない…」「スキャンした書類から情報を自動で抜き出したい」
そんな時に便利なのが OCR(光学文字認識) 機能です!
この記事では、Power Automate Desktop を使って、PDFや画像から文字情報を抽出する方法(OCRの使い方) を、ステップごとにやさしく解説します。2024年の最新アップデートに対応しています。
目次
✅ この記事でわかること
- OCRって何?どんなことができるの?
- Power Automate DesktopでOCRフローを作成する手順
- PDFや画像からテキストを取り出して表示する方法
- よくある質問(エラー対処など)
🔍 OCRって何?
OCR(Optical Character Recognition)とは、画像やPDFなどから 文字らしきものを見つけてテキストとして取り出す技術 のこと。
たとえば、スキャンされた請求書や写真に写っている文字なども、テキストとして扱えるようになります。
Power Automate Desktopでは、画像やPDFファイルをOCRで読み取って、文字として扱うことが可能です。
🛠 操作手順:OCRでPDFの文字を抽出するフローを作ってみよう!
💡シナリオ:PDFの中の請求書から顧客情報を抽出して、画面に表示してみる
✅ Step 1:新しいデスクトップフローを作成する
- Power Automate Desktop を起動
- 「新しいフロー」をクリック
- 任意の名前(例:
OCR_PDF_読み取り)を入力して「作成」
✅ Step 2:アクション「OCR でテキストを抽出」を検索して追加
- 左側のアクション検索バーに「
OCR」と入力 - 「OCR でテキストを抽出」アクションをドラッグしてメインに追加
🔧 設定内容
| 項目 | 設定内容 |
|---|---|
| OCRエンジン | Windows OCR(推奨)または Tesseract OCR |
| 画像ファイルのパス | 対象のPDFまたは画像ファイルのパスを入力 |
🔸ファイルのパスは、対象ファイルを右クリック → 「パスのコピー」で簡単に取得できます。
✅ Step 3:抽出したテキストをメッセージボックスで表示する
- アクション検索で「メッセージを表示」を追加
- タイトル:
PDFから抽出したテキスト - メッセージ:先ほどのOCRアクションで取得した変数(例:
ExtractedTextなど)を入力
✅ Step 4:フローを実行して確認する
右上の「実行」ボタンを押すと、PDFや画像内の文字が抽出され、メッセージとして表示されます。
🙋♀️よくある質問(FAQ)
Q1. OCRエンジンは「Windows」と「Tesseract」のどちらがいいの?
どちらも使用できますが、Windows OCRエンジンの方が安定性が高いとの声もあります。環境やPDFの内容によって最適なものが異なるため、両方試してみるのがおすすめです。
Q2. 手書き文字も認識できますか?
基本的には手書き文字の認識は難しいです。OCRは印刷文字に強く、筆跡やクセのある文字は正確に読み取れないことがあります。
Q3. PDF全体ではなく、一部だけ読み取ることはできますか?
可能です。ただしPower Automate Desktopでは、対象エリアを指定するには追加の画像処理が必要になるため、少し上級者向けです。まずは全文抽出から始めるのがおすすめです。
