日本語能力強化したオープンソースLLM「Llama 3.1 Swallow」を公開

日本語能力強化の新たな一歩

東京科学大学の岡崎直観教授と横田理央教授を中心とした研究チームと、国立研究開発法人産業技術総合研究所（産総研）が共同で開発した大規模言語モデル「Llama 3.1 Swallow」が公開されました。この新たな言語モデルは、日本語能力を飛躍的に向上させながら、英語の処理能力を維持する点が特徴です。

新たなモデルの特徴

その容量は80億パラメータ（8B）と700億パラメータ（70B）の2つのスケールがあり、それぞれ基本モデルと指示チューニング済みモデルの合計4種類がリリースされています。特に、日本語処理の分野では、既存の大規模言語モデルと比較して、より高い日本語理解・生成能力を持つことが証明されています。

この研究は、実際に日本語を用いたウェブコーパスを大規模かつ高品質で整備し、指示チューニングデータを自動生成することで、日本語能力を強化するための重要な施策として位置づけられています。特に、指示チューニングはAIの応答性を高めるための重要なメソッドです。

商用利用の可能性

「Llama 3.1 Swallow」はLlama 3.1ライセンスで公開されているため、商用利用はもちろん、他のモデルの改良においても利用が推奨されています。これは、多岐にわたる業界での生成AI技術の活用を後押しする大きなステップとなるでしょう。

今後の展開

言語理解や生成、さらには対話に関する能力も向上しているため、今後この技術がどのように利用されるかに高い関心が寄せられています。このモデルは、ビジネスシーンから教育分野まで、さまざまな場面での活用が期待されます。特に今後のAI技術の進展において、日本語処理の向上に大いに寄与するでしょう。

公開リンクを通じて、新たなモデルの詳細を確認することができます。この技術が日本語における生成AIの普及を促進し、新たなビジネスや研究の可能性を切り開くことを期待しています。