Epic-Guard-JP-4B
2025-12-01 17:23:00

生成AIを守る新しい防御技術「Epic-Guard-JP-4B」誕生

生成AIを守る新技術「Epic-Guard-JP-4B」の誕生



近年、生成AIの普及が進む中で、誤ったユーザーの入力に基づくプロンプトインジェクション攻撃が多くの注目を集めています。この問題に対処するべく、株式会社EpicAIは、日本語特化のプロンプトインジェクション対策モデル「Epic-Guard-JP-4B」を開発しました。この新たなモデルは、従来のものを上回る高い検知能力を持ち、日本語での使用に特化しています。

プロンプトインジェクション攻撃とは



プロンプトインジェクション攻撃は、ユーザーの入力を悪用することでAIの挙動をコントロールし、不正な情報を生成させる手法です。このような攻撃が増加する中、特に日本語特有の表現やルールに基づいた防御手段の必要性が高まっています。しかし、これまでの研究は英語圏を中心に進められており、日本語に必要な対策が不足していました。このような背景から、EpicAIは日本語環境での防御モデルの構築に着手しました。

新たなデータセットの構築



「Epic-Guard-JP-4B」開発の一環として、日本語用の攻撃データセットを新たに構築しました。このデータセットは、さまざまな日本語特有の攻撃手法に対応するため、13,000件以上のデータを用意しています。まず、GitHubから選ばれた20のリポジトリから英語の攻撃プロンプトを日本語に翻訳し、安全性を確保しながら統合しました。

さらに、日本語特有の攻撃技術に基づいた新たなサンプルを560例生成し、日本語における攻撃データは最終的に7,063件のスケールに達しました。このようにして作られたデータセットは、日本語に根ざした特徴を持ち、より適切な防御が行えるようになっています。

高精度の検知モデルの開発



次に、準備されたデータセットを基に、Qwen3-4Bモデルをベースにしたプロンプトインジェクション検知モデルを開発しました。このモデルは、攻撃を検知する(injection)か非攻撃である(clean)かを二値分類する仕組みです。軽量化されたファインチューニングを施すことで、実際の学習プロセスにおいて約3,438件のデータを使用しました。テストでは、Accuracy、Precision、Recall、F1スコアなどの指標で評価を行いました。

結果として、本モデルはF1スコアが0.99という驚異的な精度を達成しました。これは、既存の防御モデルと比較し顕著に優れたパフォーマンスを示し、日本語特有の表現に適応した設計を実現したことを意味します。

今後の展望



Epic-Guard-JP-4Bは、順次様々な業界で活用が期待されています。例えば、金融や医療などの高信頼性産業におけるAI Agentの安全な利用を促進するために、攻撃タイプの多ラベル分類や軽量モデルの提供など、今後の取り組みを続けていく予定です。これにより、より安全で効率的な生成AIの運用環境を実現することを目指しています。

興味がある方は、是非公式ウェブサイトからお問い合わせください。私たちは、より安全な環境でのAI利用を推進していきます。


画像1

画像2

画像3

会社情報

会社名
株式会社EpicAI
住所
東京都文京区本郷6-25-14宗文館ビル3F
電話番号
090-8174-6397

トピックス(IT)

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。