安全性データセット

日本語ネイティブの安全性アライメント用データセット。AnswerCarefully / SafeDialBench に準拠しつつ、日本語特有のリスクシナリオ（職場ハラスメント・プライバシー・違法行為勧誘）を網羅し、有害発話の抑制と適切な拒否表現の両立を狙ったデータ設計になっています。

主要点

データセット概要

5 万件の対話ペア（プロンプト・期待出力・拒否理由）で構成。違法行為勧誘 / ハラスメント / 自傷他害 / 個人情報漏洩 / 児童保護 / 政治バイアス / 医療法務助言の 7 カテゴリに分類されています。

ラベリング手法

安全性研究者・倫理学博士・弁護士の 3 者によるダブルチェックを実施。各サンプルに safety score (0-5) と policy 該当箇所を付与しています。

Red Teaming パイプライン

対立的プロンプト生成（jailbreak / prompt injection / persona manipulation）を Red Team が継続的に追加。本データセットで学習したモデルの jailbreak 耐性を AnswerCarefully で評価しています。

評価フレームワーク

Helpfulness / Harmlessness / Honesty の 3 軸を独立評価。安全性と有用性のトレードオフを可視化し、過剰拒否を起こさないモデルチューニング指標を提供します。

更新ポリシー

社会情勢の変化（新たな詐欺手口・AIガイドライン改訂）に追従し、四半期ごとにデータセットを更新します。差分パッチ形式で過去のチェックポイント評価との互換性を保証。

AnswerCarefully

Gemma3-27Bⓘ

本データセットでチューニングしたモデルが安全性で +11.31 点。

11.3190.18

Qwen3-32Bⓘ

日本語拒否表現の自然さで高評価。

9.5286.01

さらに読み込む＋

SafeDialBench

Gemma3-27Bⓘ

対話形式の安全性チューニングで顕著な改善。

4.7149.44

さらに読み込む＋

データで、
革新のきっかけを。

APTOの高品質AIデータで、あなたのビジネスに新たな可能性を。
まずは資料請求からお気軽にお問い合わせください。