未来のソフトウェア開発
2025-09-02 10:32:56

フューチャーが日本語ソフトウェア開発データを無償公開し研究を加速

フューチャー株式会社、ソフトウェア開発データを無償公開



フューチャー株式会社が、ソフトウェア開発に特化したインストラクションチューニングデータを無償で公開しました。このデータセットは、日本語で530万件、英語で610万件、さらにマルチターンの英語でも85万件を収録しており、日本語に特化したソフトウェア開発インストラクションチューニングデータの中では最大規模です。

インストラクションチューニングデータについて



大規模言語モデル(LLM)の開発において、良質な学習データが不可欠です。特に、指示とそれに対する回答のペアから成るインストラクションチューニングデータは非常に重要ですが、通常、これらを構築するには多くのコストがかかります。そのため、公開されている学習用データセットは限定的であり、日本語でのソフトウェア関連のデータもほとんど存在しません。この状況が、研究開発における大きな障壁となっていました。

フューチャーは、2024年10月から経済産業省とNEDOが実施する国内生成AIの開発力強化プロジェクト「GENIAC」に採択され、日本語とソフトウェア開発に特化した基盤モデルの研究開発に取り組んでいます。今回公開されたデータは、このプロジェクトの研究成果によって自動生成されたものです。

Llama 3.1 Future Code Jaの成果



本データを活用し、GENIACプロジェクトで開発した「Llama 3.1 Future Code Ja」は、さまざまなプログラミング言語において高い生成能力を発揮しています。特に、日本語による指示によるソースコード補完能力に優れた成果が確認されました。

フューチャー株式会社の取り組み



フューチャーは、20社以上のグループ企業を展開するソーシャルデザインカンパニーです。先進的なAIの研究・研究開発を積極的に推進しており、主要事業のフューチャーアーキテクトと共に、構想から実装までの一貫した支援を提供するAIコンサルティングサービスも展開しています。このような取り組みにより、フューチャーはAI技術の社会実装を進める企業としての地位を確立することを目指しています。

日本語のソフトウェア開発に関するインストラクションチューニングデータの無償公開は、今後の研究の発展に寄与し、AI技術の利用促進に繋がるでしょう。フューチャーは引き続き、最先端のAI研究を推進し、社会実装の第一人者となることを目指しています。

詳細データと公開リンク




フューチャーの今後の動向に要注目です。データの公開を通じて、日本語のソフトウェア開発に関する研究と発展が進むことが期待されます。


画像1

画像2

会社情報

会社名
フューチャー株式会社
住所
東京都品川区大崎1-2-2アートヴィレッジ大崎セントラルタワー
電話番号
03-5740-5721

トピックス(IT)

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。