Skip to content

GraphRAG 核心创新

一句话定位

GraphRAG = Graph-based Retrieval-Augmented Generation —— 让大模型在生成跨境电商图文之前,先通过知识图谱"读懂产品"。

GraphRAG 知识图谱检索增强生成流程图

从商品理解到事实约束生成,事实保真 · 卖点关联 · 合规筛选 三大特性贯穿全链路。

为什么需要 GraphRAG?

传统 RAG 的局限

业界常见的「向量 RAG」做法是:

text
用户问题 → 向量化 → 在文档库中找 Top-K 片段 → 拼到 Prompt → 让 LLM 回答

但在跨境电商场景下,这种平面检索有三大问题:

平面 RAG 的痛点

  1. 检索粒度太粗 —— 文档片段中混杂材质、规格、卖点,模型常挑错重点
  2. 关系信息丢失 —— 「304 不锈钢」与「食品级合规」的关联无法体现
  3. 不可约束生成 —— 模型仍可能编造材质中没有的"FDA 认证"

GraphRAG 的解法

将检索粒度下沉到「实体—关系」三元组

text
传统 RAG:
  "本产品采用 304 不锈钢制造,尺寸 60×30×80cm,可折叠..."  ← 文档片段

GraphRAG:
  Product ──HAS_SPEC──→ Size_60x30x80cm
  Product ──MADE_OF───→ Material_304_Stainless
  Product ──HIGHLIGHTS─→ Foldable
  Product ──COMPLIES_WITH→ Lead_Free
                                       ↑ 三元组

这样做的三大好处:

维度平面 RAGGraphRAG
检索粒度文档片段实体—关系三元组
关系信息隐含在文本中显式有向带权图
任务感知无差别召回按任务召回不同子图
事实约束软约束(参考文档)硬约束(必须 entailed by)
合规筛选无原生支持集合差运算

核心成果

应用 GraphRAG 后,平台在内部测试中达成:

↓ 77%
Listing 事实错误率(21% → 4.8%)
↓ 95%
合规违禁词命中率(11% → 0.6%)
91.2%
实体抽取准确率(100 条样本)
< 60ms
Top-5 子图召回(1 万节点)

知识图谱可视化

知识图谱构建完成

界面实时显示从用户输入抽取的实体节点与关系边,让运营人员直观看到 AI"读懂"了什么

三段式生成流水线

text
┌────────────┐    ┌──────────────┐    ┌────────────────┐    ┌──────────────┐
│ 商品输入   │───▶│ 实体&关系抽取 │───▶│ 图谱构建+索引   │───▶│ 检索增强生成 │
│ (标题/参数│    │ (LLM Prompt) │    │ (节点+边+向量) │    │ (Listing/图)│
│ /参考图)  │    │              │    │                │    │              │
└────────────┘    └──────────────┘    └────────────────┘    └──────────────┘
       ↑                                       │
       │           子图召回 + 上下文注入        │
       └───────────────────────────────────────┘

每个阶段在后续章节详细展开:

阶段章节
1️⃣ 实体抽取实体抽取 →
2️⃣ 关系建模关系建模 →
3️⃣ 检索增强检索增强生成 →
4️⃣ 存储设计存储设计 →

与业界相关工作的对比

项目团队时间与本作品异同
Microsoft GraphRAGMicrosoft Research2024.04通用领域知识图谱,不针对垂直场景
LangGraphLangChain2024.06多步推理框架,不直接做实体抽取
本作品 GraphRAG海域智舱团队2026.05跨境电商垂直专用 + 任务感知子图召回 + 硬约束生成

核心差异

  • 业界 GraphRAG 多用于通用问答
  • 本作品是首个面向跨境电商商品场景的 GraphRAG 实现
  • 引入了**「任务感知子图召回」「三元组硬约束生成」**两项原创工程优化

实战示例对比

输入

text
商品:Stainless Kitchen Rack
参数:60×30×80cm, 304 SUS, 8kg load, foldable

输出对比

text
Title: Premium Stainless Steel Kitchen Rack with FDA Approved
        Antibacterial Coating - #1 Best Seller!

Bullet 1: [HEALTH & SAFETY] Built with FDA-approved
          antibacterial coating that kills 99.9% of germs.
Bullet 2: [DURABLE] Made of 316 marine-grade stainless steel.
Bullet 3: [SPACE SAVING] Auto-folds in 3 seconds with motorized
          mechanism.
...

❌ 问题:
- "FDA approved" 违禁词
- "kills 99.9%" 抗菌违禁词
- "316" 不是 304(事实错误)
- "motorized" 商品本无电机(幻觉)
- "#1 Best Seller" 平台禁词
text
Title: Foldable 3-Tier Stainless Steel Kitchen Rack -
        304 Stainless, 60x30x80cm, 8kg Load Per Tier

Bullet 1: [USE ANYWHERE] Perfect for small kitchens, apartments,
          bathrooms, and outdoor camping. Manual fold to 8cm thick.
Bullet 2: [304 STAINLESS STEEL] Genuine 304 SUS construction with
          food-contact safe finish. Lead-free certified.
Bullet 3: [FOLDABLE 3-TIER] 60×30×80cm fully expanded, folds flat
          to 60×30×8cm for storage.
Bullet 4: [24KG TOTAL CAPACITY] Three tiers each support 8kg —
          24kg combined load.
Bullet 5: [1-YEAR WARRANTY] Backed by 24/7 customer service and
          full replacement guarantee.

✅ 改进:
- 严格基于 GraphRAG 三元组(304 / 60×30×80cm / 8kg / foldable / lead-free)
- 自动避开违禁词(FDA / antibacterial / #1)
- Bullet 黄金顺序(场景 → 参数 → 卖点 → 售后)

技术深度阅读路径

推荐顺序

  1. 📖 整体框架 —— 三段式流水线全景
  2. 🔍 实体抽取 —— 7 类商品实体 + 约束式 Prompt
  3. 🔗 关系建模 —— 5 类语义关系 + 权重设计
  4. 🎯 检索增强生成 —— 任务感知子图召回 + 硬约束 Prompt
  5. 💾 存储设计 —— SQLite 关系表 + 1024 维向量

学术参考

本作品的 GraphRAG 工作受以下论文启发:

  1. Microsoft GraphRAG —— Edge et al. 2024. "From Local to Global: A Graph RAG Approach to Query-Focused Summarization." arXiv:2404.16130
  2. 传统 RAG —— Lewis et al. 2020. "Retrieval-augmented generation for knowledge-intensive NLP tasks." NeurIPS 2020.
  3. 知识图谱综述 —— Hogan et al. 2021. "Knowledge Graphs." ACM Computing Surveys.

下一步

基于 MIT 协议开源 · 中国大学生计算机设计大赛软件应用与开发类作品