EntBench-Agent | 顾毅盛

背景

企业 Agent 任务通常涉及多用户协作、跨业务域状态联动和多步工具调用。人工构造 benchmark 成本高、复现性差；同时大量工具会让扁平语义检索漏掉前置、后续和跨域桥接工具。

围绕文档协作、会议协调、项目交付等典型企业流程，设计数据合成流水线，自动生成跨表关联、跨角色参与、跨业务域联动的模拟企业数据。

项目构建了 29 张表、4069 条记录、100+ 可用工具的企业模拟沙盒环境。

利用实体关系图采样 seed，调用 DeepSeek-V3 生成多阶段任务草稿并编译为可执行 task；再通过静态规则审查与动态任务可解性验证，过滤实体关系矛盾、权限不一致和工具链不可执行样本。

基于成功任务日志沉淀工具调用轨迹，构建工具历史图与语义图。检索阶段使用语义种子召回，再通过 PPR 图传播扩展 Top-k 工具候选。

semantic seeds -> graph propagation -> top-k tool candidates
OC@15: 46.89 -> 78.47
Recall@15: 85.11 -> 96.03