多模态索引构建

利用 HunyuanOCR 分离文本和图像,对图像使用 Qwen3-Plus 生成细粒度 caption,再基于 BGE-M3 与 FAISS 构建文本、图像双路向量库。

Agent 推理引擎

基于 ReAct 搭建工具路由逻辑,根据 Query 自动选择文本检索、图片查阅或图文联合检索工具,实现对专利文本、附图和图文对应关系的证据整合。

数据蒸馏与 SFT

针对 Agent 推理链冗长、格式不稳定和视觉幻觉问题,使用 Qwen-Plus 对原始轨迹进行数据蒸馏,完成证据对齐、冗余 CoT 压缩与 JSON schema 标准化。

基于 LoRA 微调 Qwen3-VL 后,测试集平均输出 token 数下降约 40%,减少格式重试与无效推理。

技术栈

OCR: HunyuanOCR
Caption: Qwen3-Plus
Embedding: BGE-M3 + FAISS
Agent: ReAct tool routing
SFT: LoRA on Qwen3-VL