OCRでPDFを読み取るって本当にできるの?
「PDFから数字や日本語の文字を自動で読み取りたい」
そんなときに活用できるのが、**Power Automate Desktop(PAD)× OCR(文字認識)**です。
今回は、スキャンされたPDFから品名や金額などの文字情報を自動で抽出する方法を、一からわかりやすく解説します。しかも無料で実践可能!
この記事でできること
- スキャンされたPDFからテキストを抽出する方法
- 少し斜めでも文字が正しく読み取れるOCR技術
- 日本語の読み取りに必要なTesseract言語パックの導入
- PADでのOCR自動化フロー作成の完全手順
- 抽出データの整形(改行削除やトリミング)
読み取り対象のPDFデータとは?
読み取り対象のPDFは以下のようなものです。
- 紙の書類をスキャンしてPDFにしたもの
- まっすぐスキャンされたものや、少し斜めになっているPDF
- 日本語の「合計金額」「品名」などを含む請求書風の書類
このような画像ベースのPDFからでも、PADのOCRを使えば文字を抽出できます。
【事前準備】Tesseract OCRの日本語言語パックをインストール
PADは標準でTesseract OCRを使用しますが、日本語はデフォルトで使えません。そこで、Tesseractの日本語言語パックを追加インストールする必要があります。
インストール手順:
- Tesseract公式ページからインストーラーをダウンロード
- インストール時、「Additional language data」にチェックを入れる
- 必要な言語だけを選択する場合は「jpn(Japanese)」のみを選択
- インストール完了後、PADから指定できるようになります
📌 言語パックのインストール先パス(例):
C:\Program Files\Tesseract-OCR\tessdata
【実践編】PDFから文字を抽出するPower Automate Desktopのフロー作成手順
ステップ1:新しいフローを作成
PADを起動し、新しいデスクトップフローを作成します。フロー名は自由で構いません。
ステップ2:PDFを開く
- アクション → 「アプリケーションの実行」を追加
開くPDFファイルのパスを入力(例:C:\Docs\invoice.pdf)- 「アプリケーションの読み込みを待機」に設定
- ※「完了を待機」だとうまく動作しない場合があるため
ステップ3:OCRの設定(Tesseract)
- アクション → 「OCRを使ってテキストを抽出」ではなく
デスクトップレコーダーを使用します。 - デスクトップレコーダーを起動
- PDFを開いた状態で、画面上部を右クリックし「画像からテキストを抽出」を選択
- 読み取りたいエリア(例:合計金額)を選択
- 次にアンカー領域を設定(例:合計金額というラベル部分)
📌 アンカー領域とは?
画像内で相対的な位置が変わらない領域のことです。これを基準に読み取り範囲を自動調整できます。
ステップ4:OCRアクションの編集
デスクトップレコーダーで生成された「OCRを使ってテキストを抽出」アクションを編集します。
- OCRエンジン:TesseractエンジンのままでOK
- OCRソース:
フォアグラウンドウィンドウに変更 - 言語設定:
- 「他の言語を使う」:ON
- 言語コード:
jpn - 言語データパス:インストール先(例:
C:\Program Files\Tesseract-OCR\tessdata)
ステップ5:テキストの整形(トリミング)
抽出した文字には改行や空白が含まれている場合があります。以下のように整形します。
- アクション → 「テキストのトリミング」を追加
- 対象の変数を指定
- 結果を同じ変数名に上書き
ステップ6:メッセージボックスで表示
確認のため、読み取った内容をメッセージボックスで表示します。
- アクション → 「メッセージを表示」
- メッセージ内容にトリミング済みの変数を挿入
実行してみよう!
- フローを保存
- PDFが開いていれば一度閉じる
- フローを実行
結果:合計金額や品名などが正しく抽出され、画面に表示されます。
日本語テキストも正しく認識できる!
今回のようにOCR設定で日本語対応の言語パック(jpn)を正しく指定すれば、「品名」「摘要」などの日本語も読み取れます。
フォントによる違いはある?
今回使用されたPDFでは**「メイリオ UI」フォント**でしたが、フォントによって読み取り精度は異なります。
もし認識がうまくいかない場合は、他のフォントでの出力や画像の解像度を変えてみると改善する可能性があります。
よくある質問(FAQ)
Q1. OCRで斜めのPDFでも読み取れますか?
はい、**軽度の傾きなら正確に読み取れます。**ただし、角度が大きくなると誤認識が増えるので注意が必要です。
Q2. 日本語が文字化けします。どうしたらいい?
**Tesseract OCRの日本語パック(jpn)**が正しくインストールされているか確認してください。また、言語データパスが合っているかも要チェックです。
Q3. PDFを開いたままだとエラーになりますか?
はい、一部のPDFビューア(特にEdgeなど)では開いたままだとエラーが発生する場合があります。実行前にPDFを閉じておきましょう。
