マルチベンチマーク比較 | 株式会社APTO | イノベーティブなアノテーションでAI開発に変革を

EN

Downloads Contact

単一ベンチマークの過適合（leaderboard hacking）を防ぐため、推論・安全性・多言語・コーディング・長文理解を横断する 8 種類のベンチマークを統一フォーマットで提供します。同一プロンプト・同一推論設定で比較できるため、モデル選定の意思決定に直接利用できます。

主要点

8 ベンチマーク統一：MMLU / MATH / HumanEval / M-IFEval / AnswerCarefully / SafeDialBench / LongBench / MT-Bench を 1 つのスキーマに統合。
モデル設定（temperature / top-p / system prompt）を統一して評価し、ベンチマーク間での横並び比較を保証。

データセット概要

8 ベンチマーク × 平均 1,500 問 = 約 12,000 問を統一 JSON Lines 形式で配布。各問題に benchmark_id / category / difficulty / language を付与し、フィルタリング・サブセット評価が容易です。

評価プロトコル

推論時の温度 / top-p / プロンプトテンプレート / システムプロンプトを全モデルで統一。Pass@1 / Pass@k / 多数決 (self-consistency) いずれの集計でも再現可能なスクリプトを同梱しています。

ベンチマーク間相関

各ベンチマーク間のスコア相関を解析し、過剰相関（実質同じ能力を測っている）と独立軸を可視化。8 軸のうち独立性の高い 4-5 軸の選定が可能です。

モデル間比較ダッシュボード

GPT / Claude / Gemini / Llama / Qwen / Mistral 系の主要モデルを継続的に評価。新モデル登場時に 24 時間以内にスコア更新する運用体制です。

カスタム評価対応

社内 LLM や fine-tuned モデルを同じプロトコルで評価できる API を提供。クライアントモデルを当社評価環境にアップロードするだけで横並び比較が可能です。

AnswerCarefully

01

Gemma3-27Bⓘ

安全性軸での横並び比較。

11.3190.18

02

Qwen3-32Bⓘ

安全性軸での横並び比較。

9.5286.01

さらに読み込む＋

SafeDialBench

01

Gemma3-27Bⓘ

対話安全性での横並び比較。

15.8749.44

02

Qwen3-32Bⓘ

対話安全性での横並び比較。

4.7144.62

さらに読み込む＋

一覧へ戻る

データで、
革新のきっかけを。

APTOの高品質AIデータで、あなたのビジネスに新たな可能性を。
まずは資料請求からお気軽にお問い合わせください。

資料ダウンロード

お問い合わせ