Skip to content

项目总结

项目周期

2026 年 3 月 — 5 月,历时约两个月,从立项到完成全流程交付。

项目最大的收获

不是写出了多少行代码,而是真正理解了「面向行业场景的 AI 工程」与「通用 LLM 调用」之间的差距:

关键认知

通用 LLM 调用 ≠ 真正解决业务问题

  • 通用 LLM:生成"看起来不错"的内容
  • 行业 AI 工程:生成"业务可用"的内容

后者必须深入理解业务规则(亚马逊 A10 / COSMO / Rufus 算法、合规违禁词、五点描述黄金结构),把这些隐式知识结构化为提示词约束、知识图谱、配额体系,才能产生对运营人员真正有价值的输出。

三大技术难点克服

难点 1:架构重构

text
旧版本(Cloudflare Functions)       新版本(Go + SQLite)
─────────────────────────────────    ─────────────────────────
依赖 Cloudflare 账号 + Workers       零外部依赖
Functions 部署、调试复杂              git clone + 一行命令启动
比赛展示需联网                        本地一键展示
KV / R2 / D1 多服务集成               单二进制 + 单文件

决策依据

比赛展示场景核心需求是"git clone + 一行命令启动",Go + SQLite 完美契合。

难点 2:配额一致性

矛盾: 图片直连模式可节省 60% 服务端带宽,但带来「失败时配额吞噬」风险。

解决方案: 创新性地引入两段式协议 + reaper goroutine:

text
Phase 1 (prepare):预扣配额 + 写 pending 日志
Phase 2 (complete):成功改 success / 失败改 failed + 回滚
兜底 (reaper):每 30s 扫描 pending 超时记录,自动回滚

→ 保障了用户权益(失败配额不被吞)
→ 节省了带宽(图片大文件不经服务端中转)

难点 3:GraphRAG 检索粒度

矛盾: 平面 RAG 检索粒度为「文档片段」,对跨境商品场景常出现「材质对了但卖点错配」「场景对但合规违规」的问题。

解决方案: 从「文档片段」下沉到「实体—关系」三元组,配合任务感知子图召回:

text
平面 RAG(文档级)               GraphRAG(实体级)
───────────────────              ────────────────────
"本产品采用 304 不锈钢..."       <MADE_OF, P, 304 SUS>
                                 <HAS_SPEC, P, 60×30×80cm>
                                 <HIGHLIGHTS, P, Foldable>

→ Listing 事实错误率 21% → 4.8%
→ 合规违禁词命中率 11% → 0.6%

这是本作品最具价值的技术沉淀。

团队协作模式

三人分工

成员职责
成员 A前端:React + Tailwind + PWA + IndexedDB
成员 B后端:Go + SQLite + 接口设计
成员 C算法 & 文档:GraphRAG + Prompt 工程 + 文档

协作节奏

text
每周一:进度同步(30 分钟)
每周三:技术评审(1 小时)
每周五:综合演练 + 答辩练习(2 小时)

Git 工作流

text
main ←─── PR ─── feature/xxx

            └── 至少 1 人 Code Review
            └── CI 通过(前端构建 + 后端测试)
            └── 合并

累计:80+ 次代码评审
避免:大型重构带来的代码冲突

项目成果数据

6,300
总代码行数
24
测试用例(100% 通过)
85%+
单元测试覆盖率
12
数据库迁移 SQL
80+
PR Code Review 次数
4.75/5
8 维度综合评分

未来演进方向

1. GraphRAG 深化:LangGraph 多步推理

路线图

当前:单次 Prompt 抽取实体(F1 = 0.90) 未来:升级为 LangGraph 多步推理

Step 1: 抽取实体(粗) Step 2: 验证实体(基于参考图) Step 3: 补充关系(基于类目知识库) Step 4: 反思 + 修订 Step 5: 输出最终图谱

预期 F1 → 0.95+

2. 团队空间与商品资料库

text
当前:单用户独立工作空间
未来:
  - 创建团队(Workspace)
  - 共享商品资料库(多人协作维护)
  - 角色权限:Owner / Editor / Viewer
  - 跨成员的 GraphRAG 复用

3. 对象存储替代 IndexedDB

text
当前:图片存浏览器 IndexedDB(GB 级,但仅本地)
未来:对接 OSS / S3
  - 跨设备同步
  - 团队共享素材
  - 不受浏览器存储上限影响

4. SaaS 版与开源社区版双线

text
开源社区版(MIT 协议)
  - 本地部署
  - 完整功能
  - 自带 API Key
  - 中小卖家友好

SaaS 版(商业服务)
  - 云端部署
  - 多租户隔离
  - 企业级 SLA
  - 集成支付与订阅

知识沉淀

技术层面

  • ✅ 学会了 GraphRAG 工程实现(实体抽取、关系建模、子图召回)
  • ✅ 掌握了 Go + SQLite 单机部署模式(适合中小型工具产品)
  • ✅ 理解了 PWA + IndexedDB 的离线 + 海量存储能力
  • ✅ 实践了 配额事务一致性的两段式协议设计
  • ✅ 提升了 Prompt 工程能力(约束式 / 任务感知 / 硬约束)

业务层面

  • ✅ 深入理解 亚马逊 A10 / COSMO / Rufus 算法对内容的要求
  • ✅ 整理出 80+ 条 2025-2026 高风险违禁词库
  • ✅ 总结出 Bullet 黄金顺序(场景 → 参数 → 卖点 → 售后 → 品牌)
  • ✅ 学会了 跨境电商运营全流程(选品 → 内容 → 投放 → 复盘)

工程层面

  • ✅ 团队协作(PR Review、技术评审、定期演练)
  • ✅ 文档驱动开发(每个模块有完整的设计文档)
  • ✅ 测试先行(24 个用例 + 84.9% 覆盖率)
  • ✅ 持续迭代(GraphRAG Prompt 迭代 12 次)

给同样做 AI 工程项目的同学的建议

经验分享

  1. 垂直场景比通用更有价值 —— 跨境电商专用 GraphRAG 比通用问答 RAG 商业价值高 10 倍
  2. 业务规则是最大壁垒 —— 把违禁词、算法适配做到极致,比堆模型参数有效
  3. 本地部署的吸引力 —— 比赛、演示、私有化场景都需要"一行命令启动"
  4. Prompt 工程不是炼丹 —— 每次迭代都做样本评估,量化改进效果
  5. GraphRAG 不是万能药 —— 它解决的是"事实保真",不解决"创意生成"
  6. 测试用例是产品的一部分 —— 24 个测试用例不仅验证,也是文档和回归保障

致谢

感谢项目过程中给予帮助的:

  • 指导老师:技术路线建议、答辩指导
  • 校外测试用户:5 位真实跨境卖家提供 100 条测试样本与反馈
  • 开源社区:React、Vite、Go、SQLite、Tailwind、VitePress 的贡献者
  • AI 工具:Claude Code、GitHub Copilot、Gemini 3 Pro、GPT-5.5

下一步

基于 MIT 协议开源 · 中国大学生计算机设计大赛软件应用与开发类作品