Googleドライブを使ったスキャンPDFのテキスト抽出

公開:2023/10/11 更新:2024/08/01
このエントリーをはてなブックマークに追加
Googleドキュメント Googleドライブ OCR

在宅ワークには、PDFファイルからの文字起こしの仕事が多くあります。

この仕事は、テキストが埋め込まれたPDFでは、テキスト選択やコピーが簡単にできて効率的に作業を行えますが、テキストが画像化されたスキャンPDFでは、テキスト選択やコピーができず効率的に進められません。

この記事では、在宅ワーカーが効率的に作業を進められるように、Googleドライブを使ってスキャンPDFのテキストを抽出するための具体的な手順と無料OCRツールを紹介しています。

目次

GoogleドライブOCR機能


画像ファイル(JPEG、PNGなど)からPDF形式に変換したPDFファイルや文書をスキャンして生成したPDFファイルは、「イメージPDF」や「スキャンPDF」と呼ばれテキスト情報が含まれていないため、テキスト選択やコピーができません。

この形式のPDFファイルから、テキストを抽出するためには、、OCR(Optical Character Recognition)処理をする必要があります。

Adobe Acrobat Pro DCなどの有料ツールを利用すればOCR処理を行えますが、Googleドライブは、このOCR機能を無料で提供しており、手軽に利用できます。

GoogleドライブOCR手順

Googleドライブを使うためには、Googleアカウントを作成する必要があります。

Googleアカウントは、こちらの手順で無料作成できます。

PCからは、https://drive.google.com/ のアドレスからGoogleドライブを開きます。

スマートフォンやタブレットからは、Googleドライブアプリをダウンロードして使います。

OCRしたい「イメージPDF」や「スキャンPDF」をGoogleドライブ上にアップロードします。

アップロードしたファイルを選択し右クリックするか右端の「縦三点リーダー」をクリックします。

表示されたメニューから、「アプリで開く」=>「 Google ドキュメント 」を選択します。

自動で OCR 機能が働き、新しくドキュメントファイルが開きます。

新しく開いたドキュメントファイルでは、テキストを選択してコピーできます。

無料で使えるOCRツール

Googleドライブ以外でも、無料で使えたり、機能制限のある体験版を無料で使えるOCRツールがあります。

代表的な、無料OCRツールの例を以下に記載しています。

PDF24 Tools

オンラインで画像ファイル(JPEG、PNGなど)や「イメージPDF」や「スキャンPDF」をOCRしてテキストを認識し、検索可能なPDFファイルを作成するツールです。

PDF24 Toolsサイトを開き、OCRするファイルをアップロードします。

ファイルの言語と出力タイプを設定して、「OCR実行ボタン」をクリックするとジョブが実行され、テキストが埋め込まれたPDFが生成されます。

NewOCR

オンラインで画像ファイル(JPEG、PNGなど)や「イメージPDF」や「スキャンPDF」をOCRしてテキストを認識できるようになります。

NewOCRサイトを開き、OCRするファイルを選択してアップロードします。

「Previewボタン」を押し、プレビューイメージと言語の設定を確認後に、「OCRボタン」押すとOCR結果が表示されます。

レイアウトが崩れてみずらい場合は、「Page layout analysis - split multi-column text into columns」にチェックを入れると正常に表示されることがあります。

Renee PDF Aide

PDF を、Word / Excel / Powerpoint / EPUB / TXT / HTML ファイルに変換、画像ファイルをOCRするソフトウェアです。

こちらのページからインストーラーをダウンロードしてインストールして使います。


利用したいツールとしてConvert PDFを選択するとRenee PDF Aideソフト画面が表示されます。

OCR言語と変換するページを選択後に「変換」ボタンを押します。

体験(試用)版には、変換できるPDFページは50ページまで、OCR利用回数は20ページの制限があります。

PDFの文字起こしで稼ごう


在宅ワークには、PDFファイルからの文字起こしの仕事が多くあります。

しかし、手作業での文字起こしは時間がかかるだけでなく、ミスも起きやすいものです。

そこで、手作業の負担を軽減するために、テキストの選択やコピーができない「イメージPDF」や「スキャンPDF」のOCRを無料でできるGoogle ドキュメントと無料で使えるOCRツールを紹介しました。

PDFファイルの文字起こしは、OCR機能以外にも、ブックマーク機能やハイライト機能、テキスト検索機能を上手に活用すれば、作業効率が向上します。

ぜひ、これらの情報を活かして効率的な文字起こしをして在宅ワークで稼いでください。

PR市場のPDF関連の仕事

PR市場での文字起こしを含むPDF関連の仕事は、こちらを参照してください。

お役立ち

在宅ワークをスムーズに進めるためのお役立ち記事を紹介します。

【参考】Googleスプレッドシートを覚えて稼ぐ

【参考】在宅副業でZoomを使う予定の人のための使い方ガイド

【参考】在宅初心者のためのチャットワーク

【参考】在宅ワーク初心者のためのslack解説

Googleアカウント作成手順

Googleアカウント作成ページ https://accounts.google.com/signup にアクセスします。

手順に従い必要な情報を入力すると簡単に完了します。

氏名、ユーザー名(メールアドレスとして使用されます)、パスワードを入力。

オプション電話番号やバックアップメールアドレスを入力。

生年月日と性別を入力。

Googleの利用規約とプライバシーポリシーに同意します。

関連した記事

0