多言語対応LLMの登場
2025-06-03 08:21:54

日本が誇る多言語対応LLM『Llama 3.1 Shisa V2 405B』の開発と特長

Shisa.AIが開発した新たな多言語対応LLMの誕生



東京・港区に本社を置くShisa.AIが、2025年6月3日に新たな多言語対応言語モデル『Llama 3.1 Shisa V2 405B』を開発し、その成果をオープンソースとして公開しました。本モデルは、日本国内で開発されたもので、過去最高水準の日本語性能を実現しています。さらに、GPT-4を凌駕し、GPT-4oやDeepSeek-V3といった最先端のモデルと同等の能力を持つとのことです。これは、日本のAI技術が国際的に高い競争力を持っていることを示す驚くべき成果です。

開発の背景と特徴



Shisa.AIは、日本語に特化した多くのトップモデルをこれまで開発してきた経験と知識を活かし、新たに作成した高品質な日本語学習データセットによってこのモデルの開発を行いました。このデータセットは、数百回に及ぶ実験と評価テストを通じて最適化されたもので、実際の有効性が確認されています。特に、学習に使用された計算リソースは、株式会社ユビタスから提供されています。

また、新しい日本語評価ベンチマーク(shisa-jp-ifeval、shisa-jp-rp-bench、shisa-jp-tl-bench)も開発されており、今後これらもオープンソースとして公開される予定です。

Shisa V2 405Bの性能



開発された『Shisa V2 405B』は、経済産業省の主要な日本語ベンチマーク指標をすべて大きく上回る性能を持ち、日本語や英語における主要な評価項目において、GPT-4およびその拡張版であるGPT-4 Turboを上回る実績を示しました。特に「JA MT-Bench」という業界標準の日本語ベンチマークにおいて、Shisa V2 405Bはその前のモデルであるLlama 3.1 405Bと比較して全評価カテゴリで性能向上を果たしており、GPT-4を明確に越え、米国や中国の主要研究機関が開発した最新のモデルとも同等の性能を持っています。

オープンソースとしての取り組み



Shisa.AIは、7000万から7000億までの多様なモデルを、すべて商用利用可能なApache 2.0ライセンスのもとで無償公開しています。これにより、技術者や研究者はこれらのモデルを自由に利用し、学習や開発に活かすことができるようになっています。これらのモデルはHuggingFaceのプラットフォームで手軽にダウンロード可能です。

さらに、Shisa.AIはプロジェクトで作成したコアデータセットをもApache 2.0ライセンスで公開し、これにより本モデルだけでなく他のモデルでも日本語処理能力の向上が図れることを目指しています。

未来の展望



今回の開発は、日本が高度な言語モデル開発において国際的に強い競争力をもつことを実証しています。Shisa.AIは、これからもLLMの性能や信頼性、開発効率を向上させる研究開発を進め、日本語を中心に多言語AIインフラの整備に貢献していく方針です。

Shisa.AIについて



シリコンバレー出身の高度な技術チームを核にしたShisa.AIは、次世代AIを担うスタートアップ企業です。シリコンバレーで培った先端技術と日本市場への深い理解をもとに、「日本語特化AI」と「データ駆動型開発」を基軸としたオープンソースLLMの革新を目指しています。日本発のAIイノベーションを世界に発信することを目指しています。


画像1

画像2

画像3

会社情報

会社名
AKA Virtual Inc.
住所
東京都港区元麻布 3-1-35
電話番号

トピックス(IT)

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。