Skyworkが誇る新世代報酬モデルの詳細
2025年7月4日、シンガポールに本社を持つSkywork AI PTE.LTD.は、次世代報酬モデル「Skywork-Reward-V2」をオープンソース化しました。この新しい報酬モデルは、様々なサイズの8種類のモデルを含んでおり、パラメータの規模は6億から80億に及びます。
これまでの報酬モデル評価ランキングで、Skywork-Reward-V2は全ての主要項目でトップを獲得しました。これにより、AIの進化と実用性を高めるための新たな基盤が提供されることとなります。
Skyworkは、2024年9月に初めてSkywork-Rewardシリーズモデルと関連データセットをオープンソース化しました。この9ヶ月の間に、これらのデータとモデルはオープンソースコミュニティによって広く利用され、HuggingFaceプラットフォーム上でのダウンロード数は75万回を超えています。これにより、複数の最先端モデルが優れた成績を収める助けとなっています。
Skywork-Reward-V2の性能
報酬モデルは、人間からのフィードバックによる強化学習(RLHF)プロセスにおいて非常に重要な役割を果たします。Skyworkとしては、この新たな報酬モデルの構築過程において、4000万組の選好対比を含む混合データセット「Skywork-SynPref-40M」を構築しました。これを用いた特徴的なデータ処理は、人とAIが協力して高度なデータの選別を行うというもので、特に高品質な側面を強調しています。
初期段階では、人が精密なアノテーションを行い、それに基づいてLLM(大規模言語モデル)が自動的にデータを整理・拡張します。こうした反復プロセスを通じて、報酬モデルは性能の向上を図ることができます。
混合データセットの革新
「Skywork-SynPref-40M」は、選好サンプルを4000万組も含む、大規模かつ多様なデータセットです。その革新は「人機協働による2段階反復」データ選別パイプラインにあります。このプロセスは、最初は人間が高品質な選好を選別し、次にLLMを用いて自動的に拡張する流れです。
データの生成と選別の新たなアプローチによって、高品質なデータが得られ、報酬モデルの理解と性能が飛躍的に向上したのです。
Skywork-Reward-V2の応用
この新世代報酬モデルは、場合によっては小規模なモデルでも大規模なモデルに匹敵する性能を発揮します。Skywork-Reward-V2-Qwen3-0.6Bは全体性能が前世代の最強モデルと同程度にまで達しています。また、Skywork-Reward-V2-Llama-3.1-8Bは全ての主要ベンチマークで圧倒的なパフォーマンスを見せています。
これにより、Skywork-Reward-V2は人間の選好を理解し、客観的な正確さを持ち、多次元的なタスクに適応可能な能力を有していることが示されています。特に、難しい指示理解や真実性判断においてもその性能は際立っています。
今後の展望
Skyworkのチームは、Skywork-Reward-V2の成果をもとに、他の探索範囲へと研究を拡大する計画です。将来的には、報酬モデルがAIインフラの核心を構成することを目指し、知的システムがますます複雑な環境で適応し、進化するための支援を提供することになります。
この革新的な報酬モデルは、AIのさらなる発展とオープンソースコミュニティの繁栄を加速させることが期待されています。これによって、我々はより有意義な目標に向かって進むことができるでしょう。