日本語LLM「Llama 3 neoAI」公開
2024-06-26 19:22:43

商用利用可能な日本語LLM「Llama 3 neoAI 8B Chat v0.1」公開 - オンプレミス導入でセキュリティ強化と業務特化を実現

商用利用可能な日本語LLM「Llama 3 neoAI 8B Chat v0.1」公開 - オンプレミス導入でセキュリティ強化と業務特化を実現



東大松尾研発のスタートアップ株式会社neoAIは、Metaが開発した大規模言語モデル(LLM)「Llama 3」を日本語学習させた、商用利用可能な日本語LLM「Llama 3 neoAI 8B Chat v0.1」を公開しました。

このモデルは、オープンソースで、同等のパラメータを持つLLMと比べても最高水準の日本語性能を誇ります。さらに、学習コストはわずか20万円と、非常に低価格を実現しました。

neoAIは、このモデルを用いたオンプレミス生成AI環境構築や、LLM学習の知見と企業データを用いた業務特化の独自LLM開発支援を進めていきます。

開発背景



近年、OpenAIによるLLM API公開以降、日本企業でもLLMのビジネス活用が進んでいます。しかし、多くの企業がAzureやAWSなどのクラウドサービスを利用しており、セキュリティレベルの高いデータや自社のノウハウを扱う際には、クラウド利用に不安が残ります。また、専門性の高い業務に特化するためには、LLMのモデル自体に追加学習が必要となるケースも多く、クラウドサービスでは追加学習が制限されている場合が多いです。

neoAIは、これらの課題を解決するため、Meta等の海外ビッグテックが公開する商用利用可能なLLMに日本語能力を獲得させる効率的なアプローチで、ビジネス利用可能な独自LLMの開発を進めています。

「Llama 3 neoAI 8B Chat v0.1」の特徴



Point 1: 同等パラメータ数の商用利用可能なLLMの中で最高水準

「Llama 3 neoAI 8B Chat v0.1」は、商用利用可能な同等パラメータ数のLLMと比べても、最高水準の日本語性能を達成しました。評価指標として、日本語でのタスク遂行能力と人間の好む生成を評価可能な2指標(Japanese MT-Bench、ELYZA Tasks 100)を用いて、GPT-4-Turbo-1106-Previewによって評価を行った結果、高い評価を得ています。

Point 2: 低コストで効率的に学習

「Llama 3 neoAI 8B Chat v0.1」は、Metaが一般公開している「Llama 3 8B」に対して、日本語データセットを用いて追加学習を行ったモデルです。「Llama 3 8B」は英語性能が高いものの、日本語回答の精度が低いことや日本語で質問しても英語で回答してしまうことが課題でした。そこで、neoAIは、商用利用可能なデータセットをもとに、独自に作成した高品質少量日本語データセットで学習を行うことで、約20万円と低コストで日本語能力の向上を実現しました。

ビジネス利用可能性



「Llama 3 neoAI 8B Chat v0.1」は、以下の2つの利用可能性があります。

1. オンプレミス環境によるセキュアな利用

顧客データや自社のノウハウなど、セキュリティレベルの高いデータはクラウドの利用が難しい場合がありますが、LLMによる業務効率化は期待できます。本モデルのような独自LLMをオンプレミスで導入することで、処理が自社で完結するため、安心して利用できます。

2. 追加学習による専門性の高い業務への適用を低コストで実現

GPT-4など、クラウドで提供されるLLMは追加学習ができないことが多く、暗黙知や熟練のノウハウが必要な専門性の高い業務では、利用可能な精度に達しない場合があります。本モデルのような独自LLMは追加学習できるので、企業データを用いた業務特化したLLM開発が可能となります。さらに、今回の低コストでのLLM学習の知見は、企業の独自データを用いた独自タスク学習にも応用可能です。

neoAI Chat for On-Premises



neoAIは、本モデルと現在数十社に展開中の生成AIプロダクト「neoAI Chat」を組み合わせた、クラウドを全く使わないオンプレミス版の「neoAI Chat for On-Premises」の提供も今後進めていく予定です。

生成AI R&Dチーム「neoAI Research」



neoAI Researchは、neoAIの生成AI R&Dチームとして、最新の生成AI技術を用いてビジネスに価値をもたらすことを目標に研究開発を進めています。実導入でポイントとなるコストやインフラの制限、汎用性を重視した研究を行い、今回、低コストで日本語能力を獲得した高性能な独自LLM「Llama 3 neoAI 8B Chat v0.1」を公開しました。

neoAIは、本モデルの社会実装を進めていきながら、「さらなる日本語LLMの高精度化」や「図の読み取りなど画像解釈が可能な日本語Vision Language Model(VLM)の開発」など、生成AI技術の進化を追求していきます。

neoAI会社概要



生成AIに特化したソリューションを提供する東京大学松尾研究室発のスタートアップ

・会社名:株式会社neoAI
・代表者:代表取締役 CEO 千葉駿介
・所在地:東京都文京区本郷1-28-10 本郷TKビル 5階502号室
・HP URL:https://neoai.jp

日本語LLM「Llama 3 neoAI 8B Chat v0.1」に対する感想



neoAIが公開した商用利用可能な日本語LLM「Llama 3 neoAI 8B Chat v0.1」は、同等のパラメータを持つLLMと比べても最高水準の日本語性能を達成したという点で非常に注目すべきです。

特に、オンプレミス導入が可能になった点は大きな進歩です。これまで、セキュリティ上の懸念から、顧客データや自社ノウハウを扱う業務では、クラウド型のLLM導入が難しいケースがありました。しかし、本モデルであれば、自社サーバーで運用できるため、安心して生成AIを活用できます。

また、追加学習機能により、企業独自のデータを用いた業務特化型のLLM開発も可能になりました。これは、従来のクラウド型のLLMでは実現できなかったものであり、各企業が抱える課題解決に大きく貢献する可能性を秘めています。

学習コストがわずか20万円と低価格である点も魅力です。中小企業でも導入しやすい価格帯であり、生成AIの導入を検討している企業にとって大きなメリットとなります。

今後、本モデルがどのように活用されていくのか、非常に楽しみです。特に、医療、金融、製造など、高度な専門知識が必要とされる分野での活用が期待されます。

ただし、現状では、本モデルは日本語に特化しており、英語などの他の言語への対応は今後の課題となります。また、モデルの性能向上や、より幅広いタスクに対応できるよう、継続的な開発が必要となるでしょう。

neoAIは、今後も生成AI技術の進化を追求し、社会に貢献していくことを期待しています。

画像1

画像2

画像3

画像4

関連リンク

サードペディア百科事典: 東京都 文京区 Llama 3 neoAI 日本語LLM

Wiki3: 東京都 文京区 Llama 3 neoAI 日本語LLM

トピックス(IT)

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。