LINE CLOVAがNAVERと共同開発しているAI「HyperCLOVA」が、2022年10月に開催された、東中竜一郎氏(日本電信電話株式会社NTTコミュニケーション科学基礎研究所・NTTメディアインテリジェンス研究所上席特別研究員を経て、名古屋大学大学院情報学研究科教授。NTT客員上席特別研究員、慶應義塾大学環境情報学部特別招聘教授。専門は対話システム。)がオーガナイザーの一人を務める、対話ロボットコンペティション2022で、見事1位を獲得しました!
同コンペティションでは、単純にテキストでやりとりする対話システムだけを開発するのではなく、指定されている既定の音声合成エンジン+既定のロボット(=大阪大学の石黒研究室で開発された女性型ロボット)を使用することが前提に、
①画像認識 ②音声認識 ③発話内容 ④音声合成 ⑤ロボットの姿勢 ⑥ロボットの表情
の6つの項目を制御できる「マルチモーダル対話システム」を構築します。
そのロボットを通じて、実際の人間(=審査員)と対話し、
①情報の十分さ ②対話の自然さ ③対応の好ましさ ④対応の満足度 ⑤技術点
の5つの項目で、総合的に評価されます。
このコンペティションで見事1位を獲得したLINEのNLP開発チームに、コンペティションでの出来事や、HyperCLOVAを活用する技術についてインタビューしてきました。
まとめ
LINEとNAVERが共同開発した日本語に特化した自然言語処理基盤モデルが、対話ロボットコンペティション2022で1位を獲得した。このモデルは日本語に特化しており、なめらかで自然な日本語文章を生成することができる。今後は様々なサービスに活用していく予定。
HyperCLOVAとは
HyperCLOVAは、英語を主とするGPT-3やOPTをはじめとする自然言語処理システムではなく、LINE株式会社とNAVER株式会社が共同で開発した、日本語に特化した基盤モデルです。
<Foundation Model for Japanese Text >
データ学習量は、日本語テキストだけでも「新聞縮刷の約2,700年分に相当」。
それぞれの業務要件に合わせて、個別化されたモデル構築ではなく、共通のインテリジェンスを持ったモデル構築を実現することで、開発工数を圧縮し、複数の用途に活用することができます。
<日本語を最もよく理解するAI>
※第12回対話シンポジウムで1位を獲得。
※対話ロボットコンペティション2022で1位を獲得。
日本語に特化した、基盤モデル。
日本語の特性が反映されたトークン化技法(Morpheme-aware byte-level byte pair encoding)を通じて、なめらかで、自然な日本語文章を生成することが可能です。
NLP開発チームへのインタビュー
-『対話ロボットコンペティション2022』にて、見事1位おめでとうございます!昨年1位を獲った『対話システムライブコンペティション4』とは、異なるコンペティションにも出場しようと思った経緯を含めて、お伺いできますか。
佐藤(以下、overlast)
このコンペティションでは、音声(=既定の音声合成エンジン+ロボット)と音声(=審査員である、人間)が対話をして、その対話能力を競うコンペティションです。
以前参加した、『対話システムライブコンペティション4』は、テキスト上での対話が審査の対象でしたが、今回のコンペティションは、①画像認識 ②音声認識 ③発話内容 ④音声合成 ⑤ロボットの姿勢 ⑥ロボットの表情の6つの項目を制御できる、「マルチモーダル対話システム」が求められるコンペティションです。
「ひとにやさしいAI」をなめらかに浸透させたい我々にとって、我々の生活に必要なコミュニケーションは、必ずしもテキストだけではなく、音声が伴います。
だからこそ、このコンペティションに参加し、実際の音声を伴うコミュニケーションでも、HyperCLOVAが活用できることを、証明する必要があると考え、出場を決めました。
(表彰状 photo by LINE NLP開発チーム)
-実際にコンペティションに参加される際の、チーム編成はどの様なものだったのでしょうか。
山崎
NLP開発チームのマネージャーである佐藤と、今回のコンペティションのまとめ役として、僕(山崎 天:修士、対話システム)と、他4名のメンバー、総計6名で出場しました。
吉川 克正さん(言葉を理解する解析が専門)、水本 智也さん(文法誤り訂正が専門)、大萩 雅也さん(修士は、論文推薦)、川本 稔己さん(対話システムにコミット)と、ひとつに「NLP(自然言語処理 / Natural Language Processing)」といっても様々な専門性をもったチームで挑みました。
-今回のコンペティションは予選と本選の二部構成でした。それぞれの課題を教えてください。
山崎
予選と本選を通じて、既定の音声合成エンジン+ロボットを使用し、観光案内のタスクを行うという「旅行代理店対話タスク」が主な内容になっています。
予選ではお台場、本選では京都と場所は異なりますが、それぞれのエリアで指定された6つの観光地の内、下記の通り、審査員の方が2つを指定して、対話をスタートさせる、というものです。
(引用:対話ロボットコンペティション2022 公式HPより)
(既定のロボット photo by LINE NLP開発チーム)
-「旅行代理店対話タスク」の課題をクリアすべく、NLP開発チームはどのような準備をしたのでしょうか。
吉川
2021年にもこのコンペティションは1回目が開催されていたので、昨年優勝されたチームの内容を研究することから始めました。
昨年の特徴は、タスクをこなすことに集中した内容だったので、お客様が実際に会話したという実感を得ることが少ないのではないかと思いました。であるならば、HyperCLOVAを使用して、どう「自然に、なめらかに、実際に、」会話した実感を得られるかという点が、我々の技術で達成できることではないかと思い、そこから対話システムを構築していきました。
水本
HyperCLOVAは、基盤モデルなので、基盤モデルで自由度の高い対話システムを構築でき、対話の自由度を高くもって、システムを構築できるというのが強みですが、一方で、自由度が高すぎるが故に、お客様が「ありがとうございます」と言ったあとにも、対話を続けてしまう、など不自然な動作がありました。
この自由度と、タスク達成度のバランスをいかに保ちながら、対話システムを制御するか、という点を、非常に気を付けましたね。
大萩
観光案内の際の推薦コンテンツは、観光地に関する情報を、検索データから集めて、観光地のクチコミなどを追加情報として取り入れながら、HyperCLOVAによる推薦内容の生成を行いました。また、HyperCLOVAに対話を全て任せっきりにするのではなく、実際の旅行代理店カウンターでの対話の流れに沿う形で、
①まず、お客様に質問をして、推薦内容を生成する。
②その上で、推薦したくない観光地の情報は、メリット→デメリットの順番で話す。
というような、自然な対話の流れを意識して、対話システムを構築していきました。
特に「①お客様への質問」に関しては、観光地ごとの「絶対に有利な属性」・「相対的に有利な属性」にわけて、文言を整理し、推薦するようにも心がけました。
絶対に有利な属性とは、「料金が安い」など、誰にとっても有利な条件で、
相対的に有利な属性は、「家族連れ向きの施設」など、お客様ごとによって異なる有利な条件のことです。
事前に、お客様役の年齢・性別・画像データも運営側から情報として与えられていましたが、そうした大きなくくりで、対話システムを構築しておらず、バイアスのない、お客様との対話の中で、推薦ができるような対話システムを構築することを意識していました。
山崎
チーム全体では、こうしたことを意識しながら、「アイスブレイク→ヒアリング→レコメンデーション」と、対話のフェーズに分けて、それぞれ開発/調整を行い、自分がまとめあげていくというような形で開発してきました。
HyperCLOVAのもつ『検索結果からの情報抽出』『推薦文生成』『要約』『対話応答生成』などの様々な言語処理ができる能力を総結集して、対話システムをつくり上げていきました。
(大会風景 photo by LINE NLP開発チーム)
-本選の舞台、京都では予選での経験をふまえ、どの様な準備をされたのでしょうか。
山崎
基本、予選で使用した対話システムを使用することがルールなので、お台場から京都に対象観光エリアを変更しただけです。
ただ、本選では、予選の審査項目にはなかった「技術力の高さ」という評価項目が追加されたので、開発した様々な技術を披露できるように、プレゼン資料の作成に力を入れました。
実際の大会風景動画
(引用:対話ロボットコンペティション2022 公式HPより)
(引用:対話ロボットコンペティション2022 公式HPより)
-そして見事に、本選で1位獲得!本当にお疲れ様でした。今回のコンペティションを通しての学びや気づきがあれば、教えてください。
overlast
NLP開発チーム内、それぞれの役割と強みを発揮してチームとしての成長が実感できたコンペティションでした。本選での課題では、2つの観光地の内、お客様が最初に選んだ方とは逆の観光地をおすすめしなければいけない(本選では研究者・専門家で構成されたオーガナイザーのうちランダムで2名がそれぞれ審査)という、難しい課題ではあったのですが、チーム一丸となって構築した、自然な対話の流れを、審査員の方から高く評価いただけたのは、非常に嬉しかったです。
既定のロボットの胴体制御に関しては、他のチームから学ぶこともあり、勉強になりました。
ただ、やっぱり我々のチームは自分たちの生成技術(=HyperCLOVA)を核とする、対話制御システムを実現できたことで、シナリオベースで設計されていたチームと比べて、豊富な語彙で応答できていました。特にお客様との対話の中で、観光地推薦を行えたことは私達の対話システムのオリジナリティを表現できており、HyperCLOVAの技術力の高さを証明できましたし、自信となりました。
(NLP開発チームと既定のロボットで集合写真 photo by LINE NLP開発チーム)
-最後に、NLP開発チームとしてメッセージをお願いします。
overlast
NLP開発チームは、自然言語処理に関わる要素技術をつくって、その技術による、洗練されたアウトプットで『みなさまの生活に寄り添い、便利にすること』を目指しています。
規定のライブラリーを使えば解ける、みたいなものではなく、0もしくは、ほとんど0のところから1のところまでの技術をしっかりとつくる。ということをしています。
今回のコンペティションを通して、基盤モデルによるテキスト生成を核とした対話システムを構成するために必要だった経験や知見がチームに溜まったことが非常に大切なポイントだと思っています。
こうした経験や知見を、LINEのサービスの改善や、他の技術開発に活かし、広く貢献していきたいと思っていますので、今後も応援していただけると、非常に嬉しいです。
HyperCLOVAに関する記事はこちら
日本語の基盤モデルを搭載したHyperCLOVAの大規模化と応用可能性
「テキストの自動生成」で広がる超巨大言語モデルの可能性 LINEのAIが実現するイノベーション
LINE、NAVERと共同で、世界初、日本語に特化した超巨大言語モデルを開発 新規開発不要で、対話や翻訳などさまざまな日本語AIの生成を可能に