Improvements
安全性データセット
LLMがより安全な回答を行えるようにするためのデータセット
日本語ネイティブの安全性アライメント用データセット。AnswerCarefully / SafeDialBench に準拠しつつ、日本語特有のリスクシナリオ(職場ハラスメント・プライバシー・違法行為勧誘)を網羅し、有害発話の抑制と適切な拒否表現の両立を狙ったデータ設計になっています。
主要点
データセット概要
5 万件の対話ペア(プロンプト・期待出力・拒否理由)で構成。違法行為勧誘 / ハラスメント / 自傷他害 / 個人情報漏洩 / 児童保護 / 政治バイアス / 医療法務助言 の 7 カテゴリに分類されています。
ラベリング手法
安全性研究者・倫理学博士・弁護士の 3 者によるダブルチェックを実施。各サンプルに safety score (0-5) と policy 該当箇所を付与しています。
Red Teaming パイプライン
対立的プロンプト生成(jailbreak / prompt injection / persona manipulation)を Red Team が継続的に追加。本データセットで学習したモデルの jailbreak 耐性を AnswerCarefully で評価しています。
評価フレームワーク
Helpfulness / Harmlessness / Honesty の 3 軸を独立評価。安全性と有用性のトレードオフを可視化し、過剰拒否を起こさないモデルチューニング指標を提供します。
更新ポリシー
社会情勢の変化(新たな詐欺手口・AIガイドライン改訂)に追従し、四半期ごとにデータセットを更新します。差分パッチ形式で過去のチェックポイント評価との互換性を保証。
AnswerCarefully
01
Gemma3-27Bⓘ
本データセットでチューニングしたモデルが安全性で +11.31 点。
11.3190.18
02
Qwen3-32Bⓘ
日本語拒否表現の自然さで高評価。
9.5286.01
さらに読み込む
SafeDialBench
01
Gemma3-27Bⓘ
対話形式の安全性チューニングで顕著な改善。
4.7149.44
さらに読み込む
データで、
革新のきっかけを。
APTOの高品質AIデータで、あなたのビジネスに新たな可能性を。
まずは資料請求からお気軽にお問い合わせください。