PDFからテキストを抽出する作業は、ビジネスや日常の作業を効率化するうえで非常に役立ちます。しかし、手動でPDFの内容をコピー&ペーストするのは手間がかかりますよね。そんなときに役立つのが、PADを使ったPDFテキストの自動抽出です。
Power Automate DesktopでPDFからテキストを抽出する方法
1. Power Automate Desktopを起動し、新しいフローを作成する
まずは、PADを起動して、新しいフローを作成しましょう。
- PADのメイン画面で「新しいフロー」をクリックします。
- フロー名を任意で入力し、作成ボタンを押します。
これで、新しいフローの作成が完了し、次のステップに進むことができます。
2. PDFファイルを指定する
PDFからテキストを抽出するためには、まず対象のPDFファイルを指定します。ここでは、「PDFのページを抽出」アクションを使用します。
- 左のアクションパネルから「PDF」カテゴリを選択します。
- 「PDFのページを抽出」アクションをダブルクリックしてフローに追加します。
ファイルパスには、抽出したいPDFファイルの場所を指定します。- 例えば、「C:\Users\ユーザー名\Documents\sample.pdf」と入力します。
出力ページには全ページを抽出するなら「1」と入力し、他のページを抽出したい場合は、そのページ番号を入力します。
3. PDFからテキストを抽出する
PDFファイルが指定できたら、次にテキストを抽出するアクションを追加します。ここでは「PDFからテキストを抽出」アクションを使います。
- 再度、アクションパネルから「PDF」カテゴリを選択します。
- 「PDFからテキストを抽出」アクションをフローに追加します。
ファイルパスには、先ほど指定したPDFファイルと同じものを選択します。テキスト抽出モードは「すべてのテキストを抽出」を選択します。- 出力変数として「抽出されたテキスト」という変数名を指定します(初期値のままでOKです)。
これで、指定したPDFからテキストを抽出できるようになりました。
4. 抽出したテキストをファイルに保存する
抽出したテキストは、そのままでは表示されないため、テキストファイルとして保存しましょう。「テキストをファイルに書き込む」アクションを使います。
- 左のアクションパネルから「ファイル」カテゴリを選択します。
- 「テキストをファイルに書き込む」アクションをフローに追加します。
ファイルパスには、テキストを保存したい場所とファイル名を指定します。- 例えば、「C:\Users\ユーザー名\Documents\extracted_text.txt」と入力します。
コンテンツには、先ほどの「抽出されたテキスト」変数を選択します。
これで、PDFから抽出されたテキストが指定したファイルに保存されます。
5. フローを実行して結果を確認する
最後に、フローを実行して正しく動作するか確認しましょう。
- 画面右上の「実行」ボタンをクリックしてフローを実行します。
- 実行が完了すると、指定したテキストファイルが作成され、その中にPDFから抽出されたテキストが保存されているはずです。
- 指定した保存場所に移動し、ファイルを開いて内容を確認しましょう。
よくある質問
Q1. PDFの内容が正しく抽出されない場合はどうすればいいですか?
PDFファイルの形式や内容によっては、正確にテキストが抽出されない場合があります。例えば、PDFが画像として保存されている場合、テキストデータとして認識されないことがあります。この場合、「OCR(光学文字認識)」を使って画像からテキストを抽出する方法を検討する必要があります。
PADには「OCR」機能も搭載されています。「OCRでテキストを抽出」アクションを使えば、PDF内の画像からもテキストを抽出可能です。これは特にスキャンされたPDFに有効です。
Q2. 複数ページのPDFから特定のページだけを抽出できますか?
はい、可能です。先ほどの「PDFのページを抽出」アクションで、ページフィールドに特定のページ番号を指定することで、そのページのみを対象にテキストを抽出できます。また、複数ページを指定する場合は、範囲(例:1-3)を指定することもできます。
Q3. PDFから抽出したテキストが乱れている場合はどうすればいいですか?
PDFのフォーマットによっては、抽出されたテキストの改行やスペースが乱れることがあります。このような場合は、抽出後に「テキスト操作」アクションを使用して、不要な改行や空白を削除する処理を追加すると、より見やすいテキストに整形できます。
