多模态索引构建
利用 HunyuanOCR 分离文本和图像,对图像使用 Qwen3-Plus 生成细粒度 caption,再基于 BGE-M3 与 FAISS 构建文本、图像双路向量库。
Agent 推理引擎
基于 ReAct 搭建工具路由逻辑,根据 Query 自动选择文本检索、图片查阅或图文联合检索工具,实现对专利文本、附图和图文对应关系的证据整合。
数据蒸馏与 SFT
针对 Agent 推理链冗长、格式不稳定和视觉幻觉问题,使用 Qwen-Plus 对原始轨迹进行数据蒸馏,完成证据对齐、冗余 CoT 压缩与 JSON schema 标准化。
基于 LoRA 微调 Qwen3-VL 后,测试集平均输出 token 数下降约 40%,减少格式重试与无效推理。
技术栈
OCR: HunyuanOCR
Caption: Qwen3-Plus
Embedding: BGE-M3 + FAISS
Agent: ReAct tool routing
SFT: LoRA on Qwen3-VL