背景

企业 Agent 任务通常涉及多用户协作、跨业务域状态联动和多步工具调用。人工构造 benchmark 成本高、复现性差;同时大量工具会让扁平语义检索漏掉前置、后续和跨域桥接工具。

Benchmark 数据库构建

围绕文档协作、会议协调、项目交付等典型企业流程,设计数据合成流水线,自动生成跨表关联、跨角色参与、跨业务域联动的模拟企业数据。

项目构建了 29 张表、4069 条记录、100+ 可用工具的企业模拟沙盒环境。

任务生成与验证

利用实体关系图采样 seed,调用 DeepSeek-V3 生成多阶段任务草稿并编译为可执行 task;再通过静态规则审查与动态任务可解性验证,过滤实体关系矛盾、权限不一致和工具链不可执行样本。

工具图检索

基于成功任务日志沉淀工具调用轨迹,构建工具历史图与语义图。检索阶段使用语义种子召回,再通过 PPR 图传播扩展 Top-k 工具候选。

semantic seeds -> graph propagation -> top-k tool candidates
OC@15: 46.89 -> 78.47
Recall@15: 85.11 -> 96.03
查看全部项目模块