面向前沿大模型的前 / 后训练数据供应商

为下一代推理模型
提供 高密度训练语料

深圳市麦芽新程科技有限公司专注于大模型前后训练数据的生产与交付,覆盖本科至博士专家级 STEM 推理题库、Claude Code 与 Codex 真实编码轨迹数据集,全量自带 Gemini 3.1 Pro Preview 原生思维链标注。

3,162,500+
已交付推理题数
200+
细分学科覆盖
PhD
专家级命题与盲审
Gemini 3.1 Pro
原生思维链标注

/ 后训练数据集

五套定标顶尖基准的 高质量题库

以学科多样性、题型多样性、难度梯度多样性为核心设计目标,聚焦当前顶尖模型“可解但不可靠”的黄金评测区间。全量数据自带 Gemini 3.1 Pro Preview 原生思维链标注。

undergraduate_stem_exam

本科级多学科 STEM 综合考题集

Undergraduate

覆盖数学、物理、化学、生物、计算机、工程、统计等十余个一级门类,下分数百细分子方向,适合大规模预训练、SFT 与广谱推理能力铺底。

预训练SFT广谱推理
数据规模
1,760,000 题
下载样例 ↓
graduate_stem_exam

研究生级 STEM 综合考题集

Graduate

贴合研究生入学考核场景,数学基础、自然科学、工程与信息、交叉应用全覆盖,定标本科高级至研究生入门。

研究生 SFT失败模式定位
数据规模
1,125,000 题
下载样例 ↓
graduate_stem_gpqa

研究生级跨学科高阶推理集(GPQA 级)

Graduate · GPQA

聚焦数学、计算机、生命科学、物理化学多向交叉地带,难度锚定 GPQA 基准,需多步数学推演与算法/系统机理联立建模。

GPQA跨学科SFT
数据规模
240,000 题
下载样例 ↓
expert_general_hle

专家级综合学科前沿推理集(HLE 级)

Expert · HLE

PhD / 博士后 / 高校教师命制,多轮同行盲审,单题 3–5 轮返工。难度对齐 Humanity's Last Exam,是评估旗舰模型推理天花板的试金石。

HLEHard ExampleRL 高信号
数据规模
30,000 题
下载样例 ↓
expert_math_frontiermath

专家级理论数学深推题库(FrontierMath 级)

Expert · FrontierMath

在读数学博士、博士后与高校数学系教师命题,单题 4–8 小时专家工时,至少两位领域专家交叉盲审,覆盖代数 / 几何拓扑 / 分析 / 数论 / 逻辑全谱系。

FrontierMath证明题SFT/RL
数据规模
7,500 题
下载样例 ↓

/ 更多数据形态

覆盖 VLM、Agent、Coding、RLHF 的 全栈训练语料

除 STEM 推理题库与编码轨迹外,我们另外维护四套面向不同训练阶段的高质量数据集,全部支持按学科、按难度、按场景定制切片交付。

multimodal_reasoning

多模态推理数据集

Multimodal · Reasoning

图文混合(几何图、函数图、统计图表、显微图像、电路图、地图等)+ 完整链式推理标注,覆盖 STEM、经济、医学三大领域,专为 VLM 后训练设计。

VLM图表理解几何
数据规模
320,000 题
下载样例 ↓
code_repair_swebench

代码生成与修复数据集(SWE-bench 级)

Code · Repo-level

源自真实 GitHub issue → patch 工作流,含 base_commit、failing_tests、patch、test_patch、test_report,可一键在 Docker 内复现,适配 SFT / RL 编码训练。

SWE-benchPatch可复现
数据规模
85,000 任务
下载样例 ↓
multiturn_tooluse

多轮对话与工具调用数据集

Agent · Function Calling

覆盖差旅、运维、数据分析、客服、营销等 30+ 业务场景,平均 5–12 轮对话,全程含 tool schema、tool_call、tool_output 与最终回复,是 Agent SFT 的黄金语料。

Function CallingAgent多场景
数据规模
180,000 会话
下载样例 ↓
rlhf_preference

人类偏好 / RLHF 偏好对数据集

RLHF · DPO

chosen / rejected 双响应均由两位领域标注员独立打分,附 rubric 与 rationale,覆盖解释、代码、写作、客服、安全拒答五大维度,直接喂入 DPO / PPO / GRPO。

DPOPPORubric
数据规模
260,000 对
下载样例 ↓

/ Agent 轨迹数据

真实可复现的 编码 Agent 轨迹

为下一代 Coding Agent 与 Tool-Use 模型提供工业级监督信号——从任务描述、Docker 环境、多轮推理到测试反馈,端到端完整保留。

Claude Code 真实编码轨迹

Claude Code 在真实编码任务中的完整 JSON 轨迹,含多轮 reasoning / tool_call / tool_output,可直接用于编码 Agent 的 SFT 与行为克隆。

  • 单条轨迹 100–500 KB
  • 工具调用粒度完整保留
  • 可按任务难度切分
下载样例 ↓ claude_code_trajectory.sample.json

Codex / Claude Code 中转站轨迹数据集

包含 task_source(Dockerfile / 测试 / 任务说明)+ trajectory + test_report 的完整任务包,适合复现执行环境、强化学习与端到端编码评测。

  • 任务级 sandbox 全量保留
  • 含 test_report 评分信号
  • Docker 环境可复现
下载样例 ↓ codex_trajectory.sample.zip

/ 字段 schema

五套数据集共享统一 列级 Schema

字段类型含义
uuidstring题目全局唯一标识符,跨数据集不重复,可作主键与去重依据
questionstring题目原文(含题干、公式、代码块等,保留原始 Markdown / LaTeX 格式)
answerstring参考标准答案,支持数值、代数表达式、选项、集合、多字段组合等多种形态
gemini_trajlist<struct>完整推理轨迹,每条记录含 turn / type (reasoning|tool_call|tool_output) / content
topicslist<string>题目涉及的核心知识点列表
solution_stepslist<string>关键解题步骤,按逻辑顺序记录主要推理环节,可直接用作 SFT / RL 监督信号
insightslist<string>解题关键洞察与难点提示,帮助定位推理瓶颈
knowledge_levelstring所需知识深度层级(undergraduate / graduate / research 等)
problem_naturestring题目性质(computational / conceptual / proof / modeling 等)
majorstring一级学科大类(Mathematics / Physics / Computer Science 等)
subjectstring细分子学科(Algebraic Topology / Statistical Mechanics 等)

/ 关于我们

深圳市麦芽新程
科技有限公司

麦芽新程专注于为前沿大模型实验室提供前训练与后训练阶段的高质量数据。我们与海外顶级专业标注机构、高校实验室及在读 PhD 团队深度协作,从命题、构造、答案封闭形式验证到多轮独立专家盲审,逐题打磨研究级训练样本。

我们的数据已被用于推理模型的 SFT、RL 高信号奖励设计与旗舰模型评测基线,单题信号密度数倍于常规题库。

  • 研究级命题

    PhD / 博士后 / 高校教师参与,单题 3–8 小时专家工时

  • 多轮盲审

    至少两位领域专家交叉审核,逐条核验定义、符号、定理可追溯性

  • 统一 Schema

    11 个标准字段,跨数据集去重,开箱即可入 SFT / RL 流水线

  • Gemini 3.1 Pro Preview

    全量自带原生思维链标注,可直接用作监督信号

/ 联系合作

一起把模型 推到下一个台阶

企业级批量采购、定制学科 / 难度 / 语言、私有题库共建均可洽谈。我们将在 1 个工作日内回复并安排样本试评。

商务邮箱
hh233133@outlook.com
电话
+86 18588975615
公司
深圳市麦芽新程科技有限公司
地址
广东省深圳市龙岗区布吉街道龙岭社区吉华路179号610
发送商务邮件 →