Power Automate DesktopでOCRを活用した効率的な転記作業の自動化

  • URLをコピーしました!

手動で行っていたPDFからの情報転記作業を、自動化してみませんか?Power Automate Desktopを使えば、OCR(光学文字認識)を利用して簡単にPDFの内容を抽出し、Excelなどに転記する作業を効率化できます。本記事では、Power Automate Desktopの具体的なアクションを詳しく説明し、初心者の方でも取り組みやすいように丁寧に解説します。

1. エクセルの起動

まず、データを記録するためにExcelを起動します。以下の手順でアクションを追加しましょう。

  1. 「Excel」アクションから「Excelを起動」をドラッグ&ドロップします。
  2. 「新しいドキュメントを作成」を選択して、空のExcelファイルを準備します。
  3. 必要に応じて保存先を指定することで、ファイルの紛失を防ぎます。

設定が完了すると、Excelが起動し、次の処理を実行できる状態になります。


2. 空のセルの位置情報を取得する

転記先を指定するために、Excel上の空のセルを検出します。

  1. 「Excelのデータを読み取る」アクションを使い、現在のワークシートの状態を取得します。
  2. 空白のセルを探すには、セルの値をチェックする条件分岐を追加しましょう。
    • 「変数を設定」アクションを使い、空白セルの位置情報(例: 行番号や列番号)を記録します。

これにより、OCRで取得したデータを挿入する場所を確保できます。


3. フォルダ内のPDFファイルを読み込む

PDFファイルを格納しているフォルダを指定し、すべてのファイルを読み込む処理を作成します。

  1. 「フォルダ内のファイルを取得」アクションを使用し、PDFが格納されているフォルダを選択します。
  2. フォルダ内のファイル名一覧を取得する変数を設定します。

この手順で、複数のPDFファイルを1つずつ処理する準備が整います。


4. フォルダ内のPDFファイルを一個ずつ開く

PDFを1ファイルずつ開いて処理を行います。

  1. 「ループ」アクションを追加し、先ほど取得したPDFファイルリストを繰り返し処理します。
  2. 「PDFを開く」アクションを設定して、現在のPDFファイルを表示します。
    • 表示後にOCRで文字を抽出する準備が整います。

5. OCRで文字読み込み

次に、PDFから必要な情報を取得します。

  1. 「OCRでテキストを抽出」アクションを追加し、PDFの特定の領域を選択します。
  2. 必要に応じて言語設定を行い、日本語テキストを正確に読み取れるようにします。
  3. 抽出したテキストを変数に格納します。

OCR機能を利用すれば、手動でテキストを読み取る必要がなくなります。


6. メッセージ表示

処理状況を確認できるように、途中でメッセージを表示させます。

  1. 「メッセージボックスを表示」アクションを使用し、OCRで取得した内容や進捗状況を表示します。
  2. 例: 「○○ファイルのテキスト抽出が完了しました」と設定して、ユーザーに状況を知らせます。

これにより、進行中の作業が視覚的に確認できるようになります。


7. 画像を待機(Wait)

OCR処理で画像認識が完了するまで、一時停止します。

  1. 「画像が存在するまで待機」アクションを追加し、ターゲット画像(例: OCR処理完了を示すUI要素)を指定します。
  2. 指定の画像が検出されるまで処理を一時停止させ、確実に次の手順に進めるようにします。

待機時間を挿入することで、スムーズな自動化が実現します。


8. エクセルに値を書き込む

OCRで取得したテキストをExcelに転記します。

  1. 「Excelに書き込む」アクションを使用し、空白セルの位置情報を基にデータを入力します。
  2. 先ほど設定した変数を使用して、正確なセル位置にテキストを記録します。

データ転記が完了すれば、手作業の入力は不要になります。


9. テキスト内の不要な行の削除

OCRで読み取ったテキストには、不要な改行や空白行が含まれていることがあります。

  1. 「テキストを編集」アクションを使い、特定の不要な行(例: 空行やヘッダー部分)を削除します。
  2. 正規表現を活用すると、効率的に余計な部分を削除できます。

この作業で、データの整形が行えます。


10. OCRで文字読み取り(2回目の処理)

再度OCRを利用して、別の領域のテキストを読み取ります。

  1. 前回のOCRアクションとは異なる領域を指定し、新たに文字情報を抽出します。
  2. 必要なデータが揃うまで、この処理を繰り返します。

複数箇所からデータを取得する場合、柔軟に設定を追加しましょう。


11. 文字列のトリミング

最後に、テキストデータの不要なスペースや余白を削除します。

  1. 「文字列をトリム」アクションを使用して、先頭や末尾のスペースを削除します。
  2. 必要に応じて、特定の文字(例: 改行や特殊文字)も削除する設定を追加します。

これで、データのクオリティをさらに向上させることができます。


目次

よくある質問

Q1. OCRで文字が正しく読み取れない場合、どうすれば良いですか?

A. OCRの精度が低い原因として、PDFの画質や文字のフォント、言語設定が適切でないことが考えられます。以下を試してください:

  • 「OCRでテキストを抽出」アクションで、日本語の言語設定を有効にする。
  • 画像の解像度が低い場合は、PDFを高解像度でスキャンし直す。
  • 特定のフォントや背景色が原因の場合は、画像編集ソフトで加工して読みやすくする。

Q2. PDF内の特定のページだけを処理したい場合はどうすれば良いですか?

A. 「OCRでテキストを抽出」アクションで、ページ範囲を指定することが可能です。また、ループ内でページ番号を変数として管理し、必要なページのみを抽出するよう条件を設定することもできます。


Q3. 抽出したデータの一部だけをExcelに転記するにはどうすれば良いですか?

A. 「テキストを分割」アクションを使用して、抽出したデータを特定のキーワードや改行ごとに分割できます。必要な部分だけを取り出し、その値をExcelに書き込む設定を行いましょう。


Q4. Power Automate Desktopは無料で使えますか?

A. はい、Power Automate Desktopは基本的に無料で利用できます。ただし、特定のクラウド機能や追加のライセンスが必要な場合があるため、詳細はMicrosoftの公式ドキュメントを確認してください。


Q5. 自動化フローが途中で止まってしまう場合の対処法は?

A. 以下の点を確認してください:

  • 処理中のアクションに誤った設定がないかチェック。
  • 処理対象のファイルやフォルダが正しい場所にあるか確認。
  • エラーが発生した場合、ログを確認してエラーメッセージに対応する修正を行いましょう。
よかったらシェアしてね!
  • URLをコピーしました!

この記事を書いた人

目次