文書画像を対象にしたAIのタスクとSOTAモデルの紹介

ラクスのサービスでは請求書や領収書をはじめ、様々な文書を取り扱っています。

例えば楽楽精算では領収書の読み取り機能を有しており、この機能にはAIを用いた画像認識を活用しています。

このように文書画像を対象としたAI(以下、本記事では文書画像読解AIと呼びます)は、様々なタスクに応用できます。

そこで今回の記事では、文書画像読解AIではどのようなタスクを解くことができるか、代表的なものを紹介します。

また各タスクに適用できるモデルについて、本記事執筆時点でのSOTAモデル*1をいくつか簡単に紹介します。

文書画像を扱うタスクやモデルにどのようなものがあるか、概要を知りたい方に向けた内容となっております。

上述のように、文書画像読解AIは様々なタスクに活用できます。本章ではそのうち5つのタスクを紹介します。各タスクではAIの入出力のフォーマットが異なるのが特徴です。

画像データに含まれる文字(活字、手書き)を、PCが処理可能な文字データに変換するタスクです。 AIに画像を入力すると、以下のように文字の内容と座標(検出枠)が出力されます。

OCRは主に「検出」と「認識」の２段階の処理に分解できます。 (※検出と認識を組み合わせたような Text Spotting というタスク・手法もありますが、本記事では扱いません。)

検出では文書画像中に含まれた文字の位置を推測し、認識では検出した文字が何であるかを推測します。

OCRは後述の別タスク「情報抽出」などの前処理として採用されることもあり、文書画像読解AIの基礎技術と言うことができます。

文書画像に含まれる文章、表、タイトル、図などを検出(またはセグメンテーション処理)するタスクです。

検出の場合、AIの入力値は画像、出力値は座標と分類クラスとなります。

以下は論文画像をレイアウト解析した例で、青が図(figure)、緑が文章(text)、黄色が表(table)、赤がタイトル(title)となっています。

画像の特徴から文書が何の種類か判定するタスクです。例えば請求書、領収書、納品書などへ分類します。

AIの入力は画像、出力は分類したクラスとなります。

文書画像に含まれる特定の項目を推論します。例えば請求書に記載された日付、会社名、請求金額などを推測します。

手法によりますがAIの入力は画像と文字情報(座標と文字の内容)、出力は項目名と値のペア(Key-value pair)となることが一般的です。

例えば以下の例では、レシート画像(a)を入力すると(b)のようにAIから出力されます。(c)は正解値であり、この例ではAIが正確に推論できていることがわかります。

正確にはDocVQAというのはデータセットの名前で、文書の内容に関する質問を投げると、画像に含まれた情報から回答を出力するタスクです。

AIの入力は文書画像と質問内容となります。

以下はその一例で、”Q”が質問内容、”Answer”が正解値、”Donut”と”LayoutLMv2-Large-QG”がAIの出力です。

本章では、前章の5つのタスクについてSOTAモデルについて簡単に紹介します。

SOTAを紹介する上での補足事項です。

全て紹介すると長くなってしまうので、今回は上位5個程度抜粋しました。同じアルゴリズムでパラメータ設定などが異なるものについては、最良のモデルのみとしています。
今回紹介するSOTAモデルの結果には”Papers With Code” [4]というサイトや各モデルの論文を活用しております。紹介する内容は本記事執筆時点での情報である点はご了承ください。
各タスクによってデータセットや評価指標が異なりますが、それらについての詳細解説は省略させていただきます。