Power Automate DesktopでOCR機能を使いPDFからデータを抽出する方法

URLをコピーしました！

この記事では、MicrosoftのRPAツール「Power Automate Desktop」を使い、PDFからデータを抽出する方法を初心者向けに詳しく解説します。具体的には、OCR（光学文字認識）機能を活用して、紙媒体をスキャンしたPDFから数字や日本語のデータを正確に抽出する手順を学びます。今回は、以下の2つのケースを想定します：

まっすぐにスキャンされたPDF
斜めにスキャンされたPDF

さらに、日本語データを正確に読み取るために必要な準備として、Tesseract OCRの日本語言語パックのインストール方法も詳しく説明します。これを読むことで、誰でもPDFから必要なデータを抽出できるスキルを身に付けることができます。

手順1：Tesseract OCRの日本語言語パックをインストールする

Power Automate Desktopで日本語を含むデータを正確にOCR処理するためには、Tesseract OCRの日本語言語パックをインストールする必要があります。

インストール手順

Tesseract OCRの公式ページからインストールファイルをダウンロードします。公式リンク：Tesseract OCR GitHub
インストール時の「Language data（言語データ）」の選択画面で、他の不要な言語データを除外し、「Japanese（日本語）」のみを選択します。
インストールが完了したら、Power Automate Desktopを再起動して、日本語OCRが使える状態になったことを確認します。

注意: インストール中に、保存先フォルダのパスを控えておきましょう（後でOCRエンジンの設定に必要です）。

手順2：Power Automate Desktopで新しいフローを作成する

1. 新しいフローの作成

Power Automate Desktopを開き、「新しいフロー」を作成します。
フローに名前を付けます（例：「PDFからデータ抽出」）。

2. PDFファイルを開くアクションを追加

左のアクションパネルから「ファイル」セクションを開き、「ファイルを開く」をフローに追加します。
PDFファイルのパスを指定します。
- 入力例: C:\Documents\sample.pdf

3. OCRによるテキスト抽出の設定

左のアクションパネルで「OCR」を検索し、「OCRテキストを抽出」をフローに追加します。
「OCRテキストを抽出」アクションの詳細設定を以下のように入力します：
- OCRエンジン: Tesseract OCR
- OCR言語: Japanese（日本語）
- 読み取り範囲: デスクトップレコーダーで範囲を選択
PDFビューアを開き、デスクトップレコーダーを起動して、読み取る範囲を指定します。
- 例: 数値データのみを読み取る範囲を選択。