東京エレクトロンデバイスが開発した日本語大規模言語モデル「Llama3-tedllm-8B-v1」とは

東京エレクトロンデバイスが新たに開発した日本語LLM



東京エレクトロン デバイス株式会社(以下、TED)は、Cerebras Systemsと手を組み、企業の豊富な内部データを学習できる新しい大規模言語モデル「Llama3-tedllm-8B-v1」を発表しました。このモデルは、日本語に特化しており、さまざまな業界での活用が期待されています。まずはこのモデルについての詳細を見ていきましょう。

独自の日本語LLM「Llama3-tedllm-8B-v1」



「Llama3-tedllm-8B-v1」は、基盤となるMeta-Llama-3-8Bモデルを用い、1,730億トークンに及ぶ日本語の一般コーパスおよび社内のデータを利用して、継続的な事前学習を行ったものです。このアプローチにより、英語に基づく言語モデルに日本語能力を追加し、さらに企業固有の情報を取り入れることができました。

開発の背景と目的



従来の大規模言語モデルは、多くが英語のデータを基にしており、日本の企業文化やニーズに合致したモデルが不足していました。これは、日本のユーザーにとって重要な課題です。TEDは、これを解決するために、自社のデータを有効に活用し、日本語対応のモデルを構築しました。本モデルの開発は、企業が独自のデータを用いて迅速かつ確実にLLMを構築できることを示すことを目指しています。

主な成果と特長



学習時間の短縮と精度向上



「Llama3-tedllm-8B-v1」の開発では、Cerebrasの最新AIアクセラレーター「CS-3」を利用することで、学習時間の大幅な短縮が実現されました。また、内蔵されたトークナイザーにより、言語能力を維持しながら日本語の精度も向上させました。具体的には、llm-jp evalツールを用いた評価で、Meta-Llama-3-8Bと比較し、各種指標で精度が向上していることが確認されています。

業界特有のデータの取り込み



社内のデータには、業界や製品特有の専門知識が含まれているため、このモデルを使用すれば、特定のニーズに応じた文書生成が可能になります。これにより、製品開発や業務プロセスの最適化など、さまざまな形で企業の業務をサポートします。

将来の展望



TEDは、今後もアダプターチューニングや強化学習、RAG連携の活用をい考え、独自のLLMのユースケースをさらに拡充していく予定です。これによって、企業が生成AIを活用する幅を広げ、さらなる効率化や効果的な意思決定を促進します。

開発環境と評価指標



開発に使用したCerebras CS-3は、最大16台の構成が可能で、グローバルバッチは512~720ともに調整可能です。また、評価指標としては、平均精度が57.5%と、従来のモデルよりも優れた結果を示しています。

東京エレクトロンデバイスについて



東京エレクトロン デバイス株式会社は、半導体製品やITソリューションを提供する技術商社であり、クラウド時代のビジネスに最適なソリューションを提供しています。今後も新しい技術の導入と開発に注力し、企業のニーズに応え続ける姿勢を貫いていきます。

詳細な情報はこちら

誰もが求める日本語対応のLLMがついに登場しました。企業の業務にどのように役立つのか、今後の動きにも注目です。

会社情報

会社名
東京エレクトロン デバイス株式会社
住所
東京都渋谷区桜丘町1番1号渋谷サクラステージ SHIBUYAタワー
電話番号
03-6635-6000

トピックス(IT)

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。