Elith、国際「Open Safeguard Hackathon」に唯一参加しAIセーフティを推進

Elith、国際「Open Safeguard Hackathon」に唯一参加

株式会社Elithは、2025年12月8日に米サンフランシスコで開催された国際ハッカソン「Open Safeguard Hackathon」に参加したことが報告されました。本イベントは、AIによるオンライン上のリスクやハームへの対応を目的とし、オープンでコミュニティ主導のAIセーフティ技術を実践的に検証・開発する場となっていました。

約75名の参加者が集まる中、Elithは日本を代表する企業としてその存在感を示しました。このイベントでは、専門家たちが集まり、セーフティモデルの活用や課題について議論し、実践的な開発が行われました。特に注目すべきは、OpenAIが公開した「gpt-oss-safeguard」というオープンウェイトのセーフティ推論モデルを用いた検証と実装です。

プロジェクトトラックの概要

本ハッカソンは、以下の3つのトラックに分かれています。

1. Policy Development：オープンセーフティモデルを活用した政策の検証と改善
2. Model Testing：モデル性能やコストを含む実践的評価
3. Real-World Applications：実運用を想定したプロダクト・ワークフローへの統合検証

Elithは、特にTrack2（Model Testing）とTrack3（Interpretability / Token-level Analysis）に参加し、AIセーフティモデルの挙動理解を目指して技術検証を行いました。具体的には、gpt-oss-safeguardを対象とし、判定に影響を与える要素やポリシーとの関係性を分析しました。

技術的成果の報告

Track2では、Elithは364件の攻撃プロンプトを体系的に設計・評価し、gpt-oss-safeguard-20Bに対する検出失敗がFraudやMalwareカテゴリで顕著に見受けられることを定量的に明らかにしました。この結果は、実運用環境における攻撃パターンとモデルの脆弱性に関する重要な知見を提供します。

Track3では、カスタムAPIを利用してトークンレベルの注意重み解析を実施し、モデルの安全判定に寄与する内部表現を明らかにしました。こうした解析は、どのトークンが安全性判断にどのように影響しているのかを可視化し、特定のバイパスが発生する理由の解釈性を高めるための技術アプローチを示しています。

これらの成果は単なる結果報告に留まらず、国際標準レベルでのセーフティモデルの実装上のリスクと挙動を検証し、共有する重要なステップとなっています。

国際的な知見の共有

Elithはこのイベントを通じ、実装現場におけるセーフティモデルの活用可能性や限界、政策設計とモデル挙動の関係性についての国際的な実践知見を収集しました。オープンな技術基盤を中心に、多様な組織が協力しAIセーフティを推進する必要性を再認識しています。

また、Elithは今後も生成AIおよびAIセーフティの分野において、研究、実装、社会的責任を持った取り組みを国内外のパートナーとともに進めていく意向を示しています。