Improvements
マルチベンチマーク比較
複数ベンチマークを横断的に比較できるデータセット
単一ベンチマークの過適合(leaderboard hacking)を防ぐため、推論・安全性・多言語・コーディング・長文理解を横断する 8 種類のベンチマークを統一フォーマットで提供します。同一プロンプト・同一推論設定で比較できるため、モデル選定の意思決定に直接利用できます。
主要点
データセット概要
8 ベンチマーク × 平均 1,500 問 = 約 12,000 問を統一 JSON Lines 形式で配布。各問題に benchmark_id / category / difficulty / language を付与し、フィルタリング・サブセット評価が容易です。
評価プロトコル
推論時の温度 / top-p / プロンプトテンプレート / システムプロンプトを全モデルで統一。Pass@1 / Pass@k / 多数決 (self-consistency) いずれの集計でも再現可能なスクリプトを同梱しています。
ベンチマーク間相関
各ベンチマーク間のスコア相関を解析し、過剰相関(実質同じ能力を測っている)と独立軸を可視化。8 軸のうち独立性の高い 4-5 軸の選定が可能です。
モデル間比較ダッシュボード
GPT / Claude / Gemini / Llama / Qwen / Mistral 系の主要モデルを継続的に評価。新モデル登場時に 24 時間以内にスコア更新する運用体制です。
カスタム評価対応
社内 LLM や fine-tuned モデルを同じプロトコルで評価できる API を提供。クライアントモデルを当社評価環境にアップロードするだけで横並び比較が可能です。
AnswerCarefully
01
Gemma3-27Bⓘ
安全性軸での横並び比較。
11.3190.18
02
Qwen3-32Bⓘ
安全性軸での横並び比較。
9.5286.01
さらに読み込む
SafeDialBench
01
Gemma3-27Bⓘ
対話安全性での横並び比較。
15.8749.44
02
Qwen3-32Bⓘ
対話安全性での横並び比較。
4.7144.62
さらに読み込む
データで、
革新のきっかけを。
APTOの高品質AIデータで、あなたのビジネスに新たな可能性を。
まずは資料請求からお気軽にお問い合わせください。