项目总结
项目周期
2026 年 3 月 — 5 月,历时约两个月,从立项到完成全流程交付。
项目最大的收获
不是写出了多少行代码,而是真正理解了「面向行业场景的 AI 工程」与「通用 LLM 调用」之间的差距:
关键认知
通用 LLM 调用 ≠ 真正解决业务问题
- 通用 LLM:生成"看起来不错"的内容
- 行业 AI 工程:生成"业务可用"的内容
后者必须深入理解业务规则(亚马逊 A10 / COSMO / Rufus 算法、合规违禁词、五点描述黄金结构),把这些隐式知识结构化为提示词约束、知识图谱、配额体系,才能产生对运营人员真正有价值的输出。
三大技术难点克服
难点 1:架构重构
text
旧版本(Cloudflare Functions) 新版本(Go + SQLite)
───────────────────────────────── ─────────────────────────
依赖 Cloudflare 账号 + Workers 零外部依赖
Functions 部署、调试复杂 git clone + 一行命令启动
比赛展示需联网 本地一键展示
KV / R2 / D1 多服务集成 单二进制 + 单文件决策依据
比赛展示场景核心需求是"git clone + 一行命令启动",Go + SQLite 完美契合。
难点 2:配额一致性
矛盾: 图片直连模式可节省 60% 服务端带宽,但带来「失败时配额吞噬」风险。
解决方案: 创新性地引入两段式协议 + reaper goroutine:
text
Phase 1 (prepare):预扣配额 + 写 pending 日志
Phase 2 (complete):成功改 success / 失败改 failed + 回滚
兜底 (reaper):每 30s 扫描 pending 超时记录,自动回滚
→ 保障了用户权益(失败配额不被吞)
→ 节省了带宽(图片大文件不经服务端中转)难点 3:GraphRAG 检索粒度
矛盾: 平面 RAG 检索粒度为「文档片段」,对跨境商品场景常出现「材质对了但卖点错配」「场景对但合规违规」的问题。
解决方案: 从「文档片段」下沉到「实体—关系」三元组,配合任务感知子图召回:
text
平面 RAG(文档级) GraphRAG(实体级)
─────────────────── ────────────────────
"本产品采用 304 不锈钢..." <MADE_OF, P, 304 SUS>
<HAS_SPEC, P, 60×30×80cm>
<HIGHLIGHTS, P, Foldable>
→ Listing 事实错误率 21% → 4.8%
→ 合规违禁词命中率 11% → 0.6%这是本作品最具价值的技术沉淀。
团队协作模式
三人分工
| 成员 | 职责 |
|---|---|
| 成员 A | 前端:React + Tailwind + PWA + IndexedDB |
| 成员 B | 后端:Go + SQLite + 接口设计 |
| 成员 C | 算法 & 文档:GraphRAG + Prompt 工程 + 文档 |
协作节奏
text
每周一:进度同步(30 分钟)
每周三:技术评审(1 小时)
每周五:综合演练 + 答辩练习(2 小时)Git 工作流
text
main ←─── PR ─── feature/xxx
│
└── 至少 1 人 Code Review
└── CI 通过(前端构建 + 后端测试)
└── 合并
累计:80+ 次代码评审
避免:大型重构带来的代码冲突项目成果数据
6,300
总代码行数
24
测试用例(100% 通过)
85%+
单元测试覆盖率
12
数据库迁移 SQL
80+
PR Code Review 次数
4.75/5
8 维度综合评分
未来演进方向
1. GraphRAG 深化:LangGraph 多步推理
路线图
当前:单次 Prompt 抽取实体(F1 = 0.90) 未来:升级为 LangGraph 多步推理
Step 1: 抽取实体(粗) Step 2: 验证实体(基于参考图) Step 3: 补充关系(基于类目知识库) Step 4: 反思 + 修订 Step 5: 输出最终图谱
预期 F1 → 0.95+
2. 团队空间与商品资料库
text
当前:单用户独立工作空间
未来:
- 创建团队(Workspace)
- 共享商品资料库(多人协作维护)
- 角色权限:Owner / Editor / Viewer
- 跨成员的 GraphRAG 复用3. 对象存储替代 IndexedDB
text
当前:图片存浏览器 IndexedDB(GB 级,但仅本地)
未来:对接 OSS / S3
- 跨设备同步
- 团队共享素材
- 不受浏览器存储上限影响4. SaaS 版与开源社区版双线
text
开源社区版(MIT 协议)
- 本地部署
- 完整功能
- 自带 API Key
- 中小卖家友好
SaaS 版(商业服务)
- 云端部署
- 多租户隔离
- 企业级 SLA
- 集成支付与订阅知识沉淀
技术层面
- ✅ 学会了 GraphRAG 工程实现(实体抽取、关系建模、子图召回)
- ✅ 掌握了 Go + SQLite 单机部署模式(适合中小型工具产品)
- ✅ 理解了 PWA + IndexedDB 的离线 + 海量存储能力
- ✅ 实践了 配额事务一致性的两段式协议设计
- ✅ 提升了 Prompt 工程能力(约束式 / 任务感知 / 硬约束)
业务层面
- ✅ 深入理解 亚马逊 A10 / COSMO / Rufus 算法对内容的要求
- ✅ 整理出 80+ 条 2025-2026 高风险违禁词库
- ✅ 总结出 Bullet 黄金顺序(场景 → 参数 → 卖点 → 售后 → 品牌)
- ✅ 学会了 跨境电商运营全流程(选品 → 内容 → 投放 → 复盘)
工程层面
- ✅ 团队协作(PR Review、技术评审、定期演练)
- ✅ 文档驱动开发(每个模块有完整的设计文档)
- ✅ 测试先行(24 个用例 + 84.9% 覆盖率)
- ✅ 持续迭代(GraphRAG Prompt 迭代 12 次)
给同样做 AI 工程项目的同学的建议
经验分享
- 垂直场景比通用更有价值 —— 跨境电商专用 GraphRAG 比通用问答 RAG 商业价值高 10 倍
- 业务规则是最大壁垒 —— 把违禁词、算法适配做到极致,比堆模型参数有效
- 本地部署的吸引力 —— 比赛、演示、私有化场景都需要"一行命令启动"
- Prompt 工程不是炼丹 —— 每次迭代都做样本评估,量化改进效果
- GraphRAG 不是万能药 —— 它解决的是"事实保真",不解决"创意生成"
- 测试用例是产品的一部分 —— 24 个测试用例不仅验证,也是文档和回归保障
致谢
感谢项目过程中给予帮助的:
- 指导老师:技术路线建议、答辩指导
- 校外测试用户:5 位真实跨境卖家提供 100 条测试样本与反馈
- 开源社区:React、Vite、Go、SQLite、Tailwind、VitePress 的贡献者
- AI 工具:Claude Code、GitHub Copilot、Gemini 3 Pro、GPT-5.5