CLOVA OCRが「世界最高水準の認識精度」であるのはなぜなのか 〜国際学会のコンペでの実績とAIカンパニー・AI研究チーム 〜

2022.12.26

 

※製品名・サービス名は、掲載日時点のものです。
 
AI-OCRを選ぶ上で重要なポイントは「認識精度」ですが、さまざまなAI-OCRがあり各社精度の高さを謳っている中で、どのAI-OCRを選ぶかとても迷う方も多いと思います。
 
残念ながら、どんな状態であっても、全ての書類や画像を100%認識するAI-OCRはありませんが、自社の書類を精度高く読み取ることができるAI-OCRサービスを選ぶと、AI-OCRにデータ化を任せることができる範囲が広くなり、人の手間を減らすことができます。
 
本ブログでは、そんな自社に合うAI-OCRを探すために情報収集をされている方向けに、LINE CLOVAが開発するCLOVA OCRの認識精度の高さの秘密と、OCRで日本語を認識するのがなぜ難しいのかをご紹介します。
 
 

1. 国際学会のコンペティションで認識精度No.1の獲得実績をもつCLOVA OCR

AIカンパニーとAIの研究チーム

当社には、AIを核としたビジネスを展開するための組織としてAIカンパニーがあります。組織として、研究開発からプロダクト化、ビジネス推進に至るまでを一気通貫で対応している点で、事業を運営するために必要となる各機能を1つの組織の中に有しているのが特徴で大きなポイントです。
 
組織内にはAIの研究チームが存在しており、音声認識・音声合成や自然言語処理の研究チームや、画像認識に特化した研究チームがあり、AI活用における課題を事業横断的に解決する役割を担っています。

CLOVA OCRの認識精度を支える研究・開発チームの国際会議での実績

CLOVA OCRはLINE CLOVAが自社で研究・開発を行なっているAI-OCRです。研究チームにより、日々認識精度をさらに高める研究・開発が行われ、アップデートを定期的に行なっています。
 
また、論文採択や、文字認識が難しい挑戦的な条件下で OCR の精度を競う世界的コンペティションにも積極的に参加しており、計 6 分野で世界 No.1 を獲得しています。( ICDAR, ECCV での 2022 年 9 月 28 日時点の実績)
 

【主な実績】
● ICDAR(文書解析・認識に関する国際会議)
 ※2015,2017,2019の課題において実績獲得

 

<No.1の獲得実績をもつ主な課題>
・特定のシーンのテキスト|Focused Scene Text … Task 3 -単語認識|Word Recognition
・さまざまな方向から文字を撮影した映像における読み取りチャレンジ|Robust Reading Challenge on Omnidirectional Video … Task 4 – Still image mode Word Recognition|静止画像の単語認識
・生物医学文献のイメージにおけるテキスト抽出|Text Extraction from Biomedical Literature Figures …Task 2 – Word Recognition|単語認識
・テキスト修正|Post-OCR Text Correction
・任意の形状のテキストにおける読み取りチャレンジ|Robust Reading Challenge on Arbitrary-Shaped Text
 

● ECVV(コンピュータービジョン分野※における国際会議) ※2015,2017,2019の課題において実績獲得

ECVVは 近年同分野におけるAI技術の最新研究が発表される場として注目を浴びている国際会議で、世界三大トップ会議の一つです。CLOVA OCR開発チームが1位を含む、上位ランクを埋めました

 )画像・動画データから多分野に応用できる人間並みの視覚能力の実現を目指す技術研究

 

<No.1の獲得実績をもつ主な課題>
・ボキャブラリーにない未知単語に対する認識能力を評価|Out of Vocabulary Scene Text…Task 1 – テキスト認識|End-to-End Text Recognition(詳細はこちら: https://rrc.cvc.uab.es/?ch=19 外部リンク・英文)
 
 

2 日本語を読み取ることの難しさ

OCRという技術自体は古くからありますが、「行や単語レベルで文字情報を検出をし、検出された文字を認識しデータ化する」AI-OCRは、近年研究開発されている技術です。
 
AI-OCRは、英語圏を中心に研究がなされてきたため、英語においては高い認識精度を発揮するなど、いちはやく技術が発達しています。
一方、日本語の研究開発者は英語に比べ少なく、また英語とは異なる以下のような特性を持つため技術開発が難しく、英語圏ほどの認識技術がありませんでした。
 

①日本語は単語と単語の間を区切らずに表記される(単語間にスペースがない)

 
単語の間にスペースがある英語に比べて、スペースがない日本語では、文字がどこで区切られているのか判断が難しくなります。適切に単語のかたまりを抽出できなければ、テキストの読み取りは難しくなってしまいます。
 

②縦書きが多く用いられ、縦書きと横書きが混在することも多い

 
英語は横書きがほとんどである一方、日本語には横書きと縦書きの2パターンが存在します。また、一枚の書類内に縦書き、横書きの両方が存在するケースもあり、OCR での読み取りを難しくさせる原因となります。
 

③日本語の文字数の多さ

 
英語はアルファベットの26文字で特徴もシンプルです。
大文字や小文字や記号を含めたとしても、漢字・平仮名・カタカナといった3,000 以上の文字を組み合わせる日本語の方が、テキストのバリエーションが圧倒的に多く、認識が難しくなります。
 
このような原因から、英語と比べ日本語の認識率をあげるハードルが高いのです。
 

AIにおける日本語の習得に積極的な投資をおこなうLINE CLOVA

LINE CLOVA は主にアジア圏や日本に向けて、ビジネスや実用的に利用できるAI技術を提供していますが、
特にAIにおける日本語の習得に対し積極的な投資を行なっています。
 
CLOVA OCRも日本語の認識精度をあげるため、独自にテキスト検出とテキスト認識の技術を磨き、先述のようなコンペや論文で評価をいただけるような、盤石な開発体制を保有し、日々研究・開発に注力しています。
 
 

資料請求はこちら >

 
 


 

すぐにAI-OCRを体験できる!
CLOVA OCR Reader 30日間無料トライアル

LINE CLOVAが提供するAI-OCR「CLOVA OCR」では、クラウドアプリケーション 「CLOVA OCR Reader」の30日間無料トライアルを実施しています。
 
AIテクノロジーブランド LINE CLOVAが提供するAI-OCR「CLOVA OCR」では、クラウドアプリケーション 「CLOVA OCR Reader」の30日間無料トライアルを実施しています。
 
✔︎ 「自社で使っている書類が、AI-OCRでどれくらい読み取れるか試してみたい」
✔︎ 「どんな使い方なのか、実際に操作して体験してみたい」

 
このような企業担当者さまにおすすめのトライアルとなっております。
実際に操作しながら認識精度や使用感をご体験いただけるので、ぜひご活用ください!