この章は、PDFに特に興味がなければ、PDFからデータを取得できるということを理解し、掘り下げずに学んで次に進んで良いと思います。
◆PDF自動化の概要
・Read PDF アクティビティの使用方法
・Read PDF with OCR アクティビティの使用方法
・アンカーを使用して、PDF 内のフィールドからデータを取得する方法
◆Video-PDFの自動化(ドキュメント全体の抽出方法)
・PDF用パッケージの取込み
私の環境もPDF用パッケージがインストールしてありませんでした。
・PDFファイルの情報は2種類
①テキスト化されたもの
②画像として取込まれたもの
UiPathは②もOCR機能でテキスト化できるが、
精度の問題から定型業務を勧めていない。
・テキストの抽出方法
①全体からの取込み
②特定の部分からの取込み
・取込み方法は3種類
①PDFのテキストを読み込み(ReadPDFText)
②OCRでPDFを読み込み(ReadPDFWithOCR)
③画面スクレイピング
画面スクレイピングはアクティビティではなく、
リボンから設定するので便利。
・ファイル全体からのテキスト取込みを説明
◆Video-PDFの自動化(特定の要素の抽出方法)
・「文字情報の取込み」を例に説明
・アクティビティ「テキストを取得(GetFullText)」
セレクターをカスタマイズすることで、
違うファイルから情報を取得できる。
業務の定型化のヒントを得られる。
◆Video-PDFの自動化(アンカーベース – Anchor Base)
・業務を定型化するために有効なアンカーベースの
使い方を学ぶ
・便利方法の紹介
①相対要素を探す(FindRelative)
②相対位置でスクレイピング(ScrapeRelative)
◆ワークフロー
・ダウンロードだけで良いです。
無効なアクティビティと表示され、動作しません。
次の演習に進みましょう!
◆演習 1
・アンカーベースでのテキストの取込みを学びます。
今までのことを理解していれば、
「うん」そうだね。という程度の感想でした。
◆要約
①概要
・本レッスンでは、PDF ドキュメントのタイプと、それらのファイルからデータを抽出する方法について学習しました。また、不安定なセレクターを解決する方法として、アンカーについても学習しました。
②学習した内容
・PDF アクティビティは、2 つのカテゴリに分類できます。大きなテキストのブロックまたはドキュメント全体を処理する場合と、特定のテキスト要素にフォーカスする場合です。
・PDF からデータを抽出する場合は、使用するファイルに応じて、次の 2 つのアクティビティから 1 つを選択する必要があります。[Read PDF Text( PDF のテキストを読み込み)] と [Read PDF With OCR( OCR で PDF を読み込み)] です。
・どちらのアクティビティもバックグラウンドで実行できます。
・テキストのブロックを取得する別の方法として、[Screen Scraping(画面スクレイピング)] ツールがあります。
・PDF ファイルから特定の値を抽出する場合は、[Anchor Base(アンカーベース)] を使用することも可能です。
③ベストプラクティス
・OCR はエラーが発生しやすいので、可能であれば [Read PDF With OCR( OCR で PDF を読み込み)] の代わりに [Read PDF Text( PDF のテキストを読み込み)] を使用しましょう。
・[Anchor Base(アンカーベース)] メソッドは、ファイル内の大きな構造変更に対応可能であるため、他のものよりも信頼性を高めることが可能です。
◆小テスト
80点でした。
1)
PDFファイルの場所を指定するには、どうすればよいですか?(該当するものをすべて選択してください)
○ PDFへの完全パスとして指定する
✖ ワークフローへのパスとして指定する
○ 相対パスとして指定する
単一選択
2)
PDFコンテナーに画像とテキストの両方が含まれている場合、すべてのテキストを読み取るには、どのアクティビティを使用する必要がありますか?
✖ テキストを入手
✖ 画像を読む
○ OCRでPDFを読む
✖ PDFテキストを読む
単一選択
3)
PDFアクティビティがアクティビティパネルに表示されていない場合は、どのように取得できますか?
○ パッケージの管理 機能を使用してインストールする。
✖ 出力パネルに移動する。
✖ ライブラリ タブで検索する。
複数の選択肢
4)
Read PDF with OCR アクティビティについて、正しい説明は次のうちどれですか?(該当するものをすべて選択してください)
×? オプションなし
○ 異なるOCRエンジン(Microsoft、Google)を使用できる
○? 読み上げるページの範囲を指定できる
○ PDFファイルと連動する
複数の選択肢
5)
Read PDF with OCR アクティビティでエラーがスローされるのは、次のどの条件が指定されていない場合ですか?
✖ Password プロパティ.
○ FileName プロパティ.
○ 使われるOCRエンジン
✖ Text プロパティ.