Agentic RAG 专利问答

多模态索引构建

利用 HunyuanOCR 分离文本和图像，对图像使用 Qwen3-Plus 生成细粒度 caption，再基于 BGE-M3 与 FAISS 构建文本、图像双路向量库。

基于 ReAct 搭建工具路由逻辑，根据 Query 自动选择文本检索、图片查阅或图文联合检索工具，实现对专利文本、附图和图文对应关系的证据整合。

针对 Agent 推理链冗长、格式不稳定和视觉幻觉问题，使用 Qwen-Plus 对原始轨迹进行数据蒸馏，完成证据对齐、冗余 CoT 压缩与 JSON schema 标准化。

基于 LoRA 微调 Qwen3-VL 后，测试集平均输出 token 数下降约 40%，减少格式重试与无效推理。

OCR: HunyuanOCR
Caption: Qwen3-Plus
Embedding: BGE-M3 + FAISS
Agent: ReAct tool routing
SFT: LoRA on Qwen3-VL