手動で行っていたPDFからの情報転記作業を、自動化してみませんか?Power Automate Desktopを使えば、OCR(光学文字認識)を利用して簡単にPDFの内容を抽出し、Excelなどに転記する作業を効率化できます。本記事では、Power Automate Desktopの具体的なアクションを詳しく説明し、初心者の方でも取り組みやすいように丁寧に解説します。
1. エクセルの起動
まず、データを記録するためにExcelを起動します。以下の手順でアクションを追加しましょう。
- 「Excel」アクションから「Excelを起動」をドラッグ&ドロップします。
- 「新しいドキュメントを作成」を選択して、空のExcelファイルを準備します。
- 必要に応じて保存先を指定することで、ファイルの紛失を防ぎます。
設定が完了すると、Excelが起動し、次の処理を実行できる状態になります。
2. 空のセルの位置情報を取得する
転記先を指定するために、Excel上の空のセルを検出します。
- 「Excelのデータを読み取る」アクションを使い、現在のワークシートの状態を取得します。
- 空白のセルを探すには、セルの値をチェックする条件分岐を追加しましょう。
- 「変数を設定」アクションを使い、空白セルの位置情報(例: 行番号や列番号)を記録します。
これにより、OCRで取得したデータを挿入する場所を確保できます。
3. フォルダ内のPDFファイルを読み込む
PDFファイルを格納しているフォルダを指定し、すべてのファイルを読み込む処理を作成します。
- 「フォルダ内のファイルを取得」アクションを使用し、PDFが格納されているフォルダを選択します。
- フォルダ内のファイル名一覧を取得する変数を設定します。
この手順で、複数のPDFファイルを1つずつ処理する準備が整います。
4. フォルダ内のPDFファイルを一個ずつ開く
PDFを1ファイルずつ開いて処理を行います。
- 「ループ」アクションを追加し、先ほど取得したPDFファイルリストを繰り返し処理します。
- 「PDFを開く」アクションを設定して、現在のPDFファイルを表示します。
- 表示後にOCRで文字を抽出する準備が整います。
5. OCRで文字読み込み
次に、PDFから必要な情報を取得します。
- 「OCRでテキストを抽出」アクションを追加し、PDFの特定の領域を選択します。
- 必要に応じて言語設定を行い、日本語テキストを正確に読み取れるようにします。
- 抽出したテキストを変数に格納します。
OCR機能を利用すれば、手動でテキストを読み取る必要がなくなります。
6. メッセージ表示
処理状況を確認できるように、途中でメッセージを表示させます。
- 「メッセージボックスを表示」アクションを使用し、OCRで取得した内容や進捗状況を表示します。
- 例: 「○○ファイルのテキスト抽出が完了しました」と設定して、ユーザーに状況を知らせます。
これにより、進行中の作業が視覚的に確認できるようになります。
7. 画像を待機(Wait)
OCR処理で画像認識が完了するまで、一時停止します。
- 「画像が存在するまで待機」アクションを追加し、ターゲット画像(例: OCR処理完了を示すUI要素)を指定します。
- 指定の画像が検出されるまで処理を一時停止させ、確実に次の手順に進めるようにします。
待機時間を挿入することで、スムーズな自動化が実現します。
8. エクセルに値を書き込む
OCRで取得したテキストをExcelに転記します。
- 「Excelに書き込む」アクションを使用し、空白セルの位置情報を基にデータを入力します。
- 先ほど設定した変数を使用して、正確なセル位置にテキストを記録します。
データ転記が完了すれば、手作業の入力は不要になります。
9. テキスト内の不要な行の削除
OCRで読み取ったテキストには、不要な改行や空白行が含まれていることがあります。
- 「テキストを編集」アクションを使い、特定の不要な行(例: 空行やヘッダー部分)を削除します。
- 正規表現を活用すると、効率的に余計な部分を削除できます。
この作業で、データの整形が行えます。
10. OCRで文字読み取り(2回目の処理)
再度OCRを利用して、別の領域のテキストを読み取ります。
- 前回のOCRアクションとは異なる領域を指定し、新たに文字情報を抽出します。
- 必要なデータが揃うまで、この処理を繰り返します。
複数箇所からデータを取得する場合、柔軟に設定を追加しましょう。
11. 文字列のトリミング
最後に、テキストデータの不要なスペースや余白を削除します。
- 「文字列をトリム」アクションを使用して、先頭や末尾のスペースを削除します。
- 必要に応じて、特定の文字(例: 改行や特殊文字)も削除する設定を追加します。
これで、データのクオリティをさらに向上させることができます。
よくある質問
Q1. OCRで文字が正しく読み取れない場合、どうすれば良いですか?
A. OCRの精度が低い原因として、PDFの画質や文字のフォント、言語設定が適切でないことが考えられます。以下を試してください:
- 「OCRでテキストを抽出」アクションで、日本語の言語設定を有効にする。
- 画像の解像度が低い場合は、PDFを高解像度でスキャンし直す。
- 特定のフォントや背景色が原因の場合は、画像編集ソフトで加工して読みやすくする。
Q2. PDF内の特定のページだけを処理したい場合はどうすれば良いですか?
A. 「OCRでテキストを抽出」アクションで、ページ範囲を指定することが可能です。また、ループ内でページ番号を変数として管理し、必要なページのみを抽出するよう条件を設定することもできます。
Q3. 抽出したデータの一部だけをExcelに転記するにはどうすれば良いですか?
A. 「テキストを分割」アクションを使用して、抽出したデータを特定のキーワードや改行ごとに分割できます。必要な部分だけを取り出し、その値をExcelに書き込む設定を行いましょう。
Q4. Power Automate Desktopは無料で使えますか?
A. はい、Power Automate Desktopは基本的に無料で利用できます。ただし、特定のクラウド機能や追加のライセンスが必要な場合があるため、詳細はMicrosoftの公式ドキュメントを確認してください。
Q5. 自動化フローが途中で止まってしまう場合の対処法は?
A. 以下の点を確認してください:
- 処理中のアクションに誤った設定がないかチェック。
- 処理対象のファイルやフォルダが正しい場所にあるか確認。
- エラーが発生した場合、ログを確認してエラーメッセージに対応する修正を行いましょう。
