博報堂テクノロジーズ、国際会議での論文採択を受け新たな学びの道を切り開く

博報堂テクノロジーズ、国際会議「ICLR2025」における論文採択

株式会社博報堂テクノロジーズは、東京都港区に本社を置くテクノロジー戦略会社で、広告業界を中心にAI研究開発を推進しています。このたび、当社の研究者が共著者として参加した論文「A General Framework for Off-Policy Learning with Partially-Observed Reward」が国際学会「ICLR 2025」に採択されたことが発表されました。この国際会議は、機械学習や深層学習分野の最先端研究が集結する、非常に名誉なプラットフォームです。

研究の背景

現代のアプリケーションは、多くの過去のデータから学習を行い、最適な行動を選択する能力を必要としています。広告配信やレコメンドシステム、医療の治療選択など、様々な分野で「どの行動を選択するか」が重要な要素です。しかし、実務データには報酬が一部しか観測できなかったり、時間的な遅延やデータの欠損が生じることがあり、これが「部分観測」と呼ばれる問題を引き起こします。この場合、学習の推定結果は不安定になりがちです。

提案手法「HyPeR」

博報堂テクノロジーズが提案する「HyPeR（Hybrid Policy Optimization for Partially-Observed Reward）」は、こうした課題に対する新しいアプローチです。本手法では、主に最適化を狙う指標とともに、頻繁に得られるセカンダリ指標を併用することで、安定かつ高精度な学習を実現します。具体的には、購入や長期リテンションといった主要な報酬を扱う一方で、クリック率や滞在時間といった補助的な指標を利用することで、実際の運用環境でも高い性能を発揮できるようになりました。

学術的および実務的意義

この研究は多岐にわたる部分観測問題を一つにまとめ上げ、理論的に整理する意味を持ちます。更に、セカンダリ情報を活用することで推定のバイアスを抑え、高精度の推定手法を実現します。これは、レコメンドや広告だけでなく、医療やロボット制御などの分野にも広く応用が可能です。

今後の展望

本研究の成果により、将来的には広告やレコメンドシステムにおける入札最適化や、医療における治療効果の遅延観測などがより正確に行えるよう期待されます。また、この手法はオフライン強化学習の発展にも寄与し、自動運転等の複雑なタスクへの応用も見込まれます。

博報堂テクノロジーズは、今後も学術分野と実ビジネスにおいて貢献を続け、新たな技術革新を推し進めてまいります。

論文情報

- 論文タイトル: A General Framework for Off-Policy Learning with Partially-Observed Reward
- 著者: 武樋力哉 (早稲田大学), 浅見雅宏 (博報堂テクノロジーズ), 川上耕介 (博報堂テクノロジーズ), 齋藤優太 (コーネル大学)
- 学会: ICLR 2025 (International Conference on Learning Representations)
- リンク