株式会社APTOが日本語LLMの安全性向上に向けた新しいデータセットを公開

株式会社APTO、日本語LLMの安全性を高める新しいデータセットを発表

株式会社APTOが、日本語環境における大規模言語モデル（LLM）の安全性を向上させるために、新たに学習データセットと安全性チューニングモデルを公開しました。近年、生成AIが急速に普及する中で、有害な出力に対処し、倫理的な応答を実現することは、依然として重要なテーマとなっています。

日本語LLMの課題

特に日本語に特化したLLMでは、文化的背景や日本語特有の文脈を踏まえた安全性データが不足しており、これが大きな課題とされてきました。この状況を受けて、APTOは約18,000件の日本語安全性学習データを独自に設計し、安全性と対話の質を両立させるためのチューニングを行うことに成功しました。

公開された内容

APTOは、安全性チューニング済みのモデルと、約18,000件のサンプルデータセットを公開しました。具体的には以下のモデルが発表されています。

- Qwen3.5-27B-SafetyTuned
- Qwen3.5-9B-Base-SafetyTuned
- Qwen3.5-9B-SafetyTuned

また、これらのモデルに対応した推論環境向けの量子化版も提供されています。サンプルデータセットは、構成比を維持しながら500件が公開されており、以下のカテゴリに分類されています。

- safety_refusal：有害な質問に対する適切な拒否
- overrefusal_prevention：安全な質問への過剰拒否防止
- mid_refusal：応答途中からの修正パターン
- anti_hallucination：捏造防止

安全性チューニングの手法

APTOが採用した手法は多段階のプロセスから成り立っています。具体的には、攻撃プロンプトの設計から始まり、モデル応答生成、模範安全回答の作成、品質精査という4段階のプロセスによって高品質なデータを形成しています。また、過剰拒否を防止するためのデータも用意されており、安全な質問に適切に応答できるよう調整されています。

技術的特徴

APTOの取り組みは、日本語特有の文脈を考慮しながら安全性データを設計した点でも注目されます。通常、安全性チューニングを強化すると対話品質や推論性能が低下するケースが多いですが、本プロジェクトでは、その両立を目指しながら安全性指標の改善に成功しました。

結果と評価

発表された結果によれば、例えばQwen3.5-9B-Baseモデルでは、AC Acceptable Rateが66.8%から80.2%へと向上し、最大で13.4ポイントの改善が確認されています。さらに、通じて品質を維持しながら安全性の向上を実現しています。

今後の展望

APTOは今後もLLMの安全性と実用性を両立させるための研究開発に注力する意向を示しています。特に過剰拒否の抑制やより広範囲にわたる安全性の向上に向けた研究を進めるとしています。また、得られた知見を活用して他のモデルや言語に対する支援を行う計画も進めています。

このように、APTOの取り組みは日本語LLMの未来を開く重要な一歩であり、企業に対するLLM安全性チューニングやデータセット開発支援を通じて、さらなるシナジーを生むことが期待されています。