株式会社APTOが指示追従性能向上のためのデータセットを公開

大規模言語モデルの指示追従性能改善に向けた新たな試み

株式会社APTOは、最近発表した新しいデータセットにより、大規模言語モデル（LLM）の指示追従性能をさらに向上させる取り組みを行いました。LLM自体の性能は日々進化しているものの、その指示に従う能力に関しては依然として課題が残されており、このデータセットはその改善の一環として開発されました。

指示追従性能向上の背景

日常業務の中で、LLMに複数の指示を与えた経験のある方々は多いでしょう。例えば、メディア運営者が記事や書籍の内容を要約依頼する際に「3行にまとめる」という具体的な指示を与えることがあります。また、社内の文書確認作業の効率化を図るため、LLMに次々とルールを追加していく事例も見受けられます。こうした状況の中で、指示が複雑化することにより、期待する回答が得られないという問題も起こりがちです。

このような背景から、株式会社APTOでは通常の指示に加え、より複雑な指示にも対応できるInstructionデータセットの開発を決定しました。このデータセットには、合成データを基にした人手での品質チェックを経た222件のデータが含まれ、さらにhuggingfaceにて公開されています。

APTOデータセット公開ページ

データセットの概要

本データセットは、Instruction Tuningに必要な「質問」と「回答」を含むほか、その内容を示す「ジャンル」タグ、指示の構造を示す「指示内容」リスト、そしてその指示の数を示す「指示数」から成り立っています。特に「複雑な指示」とは、複数の指示が含まれるケースを指し、具体的な条件や出力形式の設計において指示に対応しやすくなるように設計されています。

本データセットの性能を確保するためには、GPT-4.1を使用して指示従従性を評価し、AIの判断だけでは不十分な部分は人手での確認と修正を行うという2段階のプロセスを経ています。

情報ラベルについて

データセットには、質疑応答の流れに従った「ジャンル」ラベルが付与されており、これによりどの題材が取り扱われているかが一目で分かる構造になっています。また、指示内容に基づいた属性の定義も行われており、様々な学習・評価が行いやすくなる工夫があります。アプローチの具体例としては、JSON形式での出力や、箇条書き指示のようなフォーマット指定も含まれており、実際の指示追従能力が大幅に向上しています。

今後の展開

マルチターンにおける指示追従性能の評価を行うMultiChallengeや、指示追従の基準に関する指標を提供するIFBenchなど、LLM技術の発展に伴ってこれらの指標が重要視されるようになった背景を持っています。特に、プログラミングにおける指示従従性も、利用者からのフィードバックを元にさらなる改善が求められるポイントです。

AI技術が進化する中で、ユーザーのニーズも日々変化していきます。APTOでは、こうしたニーズに応じたデータセットの新規作成を進めており、これからも状況に応じて必要なデータを提供することが重要であると考えています。

株式会社APTOについて

株式会社APTOは、AI開発に必要不可欠な「データ」に特化した支援サービスを展開しています。データ収集・アノテーションプラットフォーム「harBest Annotation」や、高速なデータ準備サービス「harBest Dataset」、専門家の知見を活かしたデータ精度向上を支援する「harBest Expert」などを通じて、効率的なAI開発を推進しています。