背景
使用 AI Agent 时,大量上下文会流经 provider 的 API — 对话、代码、配置、文件内容。一个问题随之而来:这些数据会被用来训练模型吗?
调查范围覆盖了以下 provider 及其条款:
- OpenAI(Codex / Copilot 底层)
- Google(Gemini 系列)
- Anthropic(Claude)
- OpenRouter(多 provider 路由层)
- Nous Research(Hermes Agent 的 subscription provider)
- Moonshot AI / Kimi(国内主力 coding 模型)
核心发现
| Provider | 是否训练用户数据 | 数据保留 | opt-out |
|---|---|---|---|
| OpenAI (API) | ❌ 不训练 | 未明确 | N/A(默认不训练) |
| Google Gemini (API) | ❌ 不训练 | 55 天 | N/A |
| Anthropic (API) | ❌ 不训练 | 30 天 | N/A |
| OpenRouter(中间层) | ❌ 不记录 | 取决于下游 | ✅ 账户设置可选 |
| Nous Research | ✅ 可能训练 | 未明确 | ❌ 无 |
| Kimi / Moonshot(直连 API) | ✅ 可能训练 | 未明确 | ⚠️ 发邮件,不保证 |
一言以蔽之:大厂 API 默认不训练,小厂 / 新厂保留训练权利且 opt-out 机制薄弱。
逐个 provider 细说
OpenAI:API 数据不训练
自 2023 年 3 月起,OpenAI 明确 API 调用的数据不用于训练模型。数据保留 30 天用于安全监控后删除。这是行业标杆级别的承诺。
来源:OpenAI API Data Usage Policy(2023-03-01 起生效)
Google Gemini:同样不训练
Google AI Studio 的 API 数据"not used to train or fine-tune any AI/ML models besides those used specifically for policy enforcement"。措辞清晰,不留模糊空间。
来源:Google AI Studio Usage Policies
Anthropic:API 不训练
Anthropic 对 API 用户的数据不用于训练。2025 年消费者端(claude.ai)的政策有变化(默认可用于训练,需手动 opt-out),但 API 通路保持不变。
来源:Anthropic API Terms of Service
OpenRouter:中间层的隐私守门人
OpenRouter 本身不记录用户数据。两个关键功能:
- Training opt-out:在账户设置中关闭后,OpenRouter 不会路由到可能训练数据的 provider。
- Zero Data Retention (ZDR):开启后只路由到支持零保留的 provider。
实操路径:登录 openrouter.ai/settings/privacy,分别关闭付费模型和免费模型的 training 开关。
来源:OpenRouter Provider Logging 文档
Nous Research:条款明确允许训练
两份文件口径一致:
ToS Section 12.3:"Nous Research may use Client Data in an aggregated or anonymized format for research, educational and other similar purposes."
Privacy Policy:"We use information... to Train and fine-tune models."
关键问题:
- 没有任何 opt-out 机制
- "aggregated or anonymized" 的标准未定义
- Privacy Policy 直接将 "Conversations with LLMs" 列为收集项
来源:portal.nousresearch.com/terms,portal.nousresearch.com/privacy
Kimi / Moonshot AI:有 opt-out,但埋得很深
ToS Section 4:"We may use content to provide, maintain, develop, and improve the services."
Privacy Policy:"We process this information... including training and optimizing our models."
opt-out 存在但隐蔽:
- 消费者端隐私政策提到可发邮件至 membership@moonshot.ai 申请 opt-out
- API 端隐私政策未提及此选项
- 第三方分析标注:"Opt-out is NOT guaranteed"
- 社区反馈:名义存在,实际操作困难
重要区分:通过 OpenRouter 路由 Kimi 时,OpenRouter 标记 Moonshot AI 为"不训练 + 零保留"。但直连 Kimi API(api.kimi.com)适用 Kimi 自己的宽松条款。
来源:platform.kimi.ai/docs/agreement/modeluse,platform.kimi.ai/docs/agreement/userprivacy
被训练了,实际影响有多大?
不需要恐慌,但需要知情。
不必过度担心的理由:
- 模型训练用的是 TB/PB 级数据,个人对话的占比约等于零
- 模型学习的是语言统计模式,不是个人信息数据库
- API 调用中真正敏感的数据(密钥、密码)通常已被 redaction 机制过滤
- 要从训练好的模型中提取特定用户信息,需要精心设计的攻击,对普通用户没有攻击价值
不可忽视的理由:
- 代码架构、项目结构、技术选型可能被学习
- 对话模式和使用习惯可以构建用户画像
- 一旦数据进入训练池,技术上几乎不可能精确移除
- 核心问题不是数据敏感度,而是选择权 — Nous 和 Kimi 不给用户真正的选择
Actionable Steps
1. 检查 OpenRouter 账户设置
登录 openrouter.ai/settings/privacy:
- 关闭 "Allow training on prompts"(付费模型 + 免费模型都关)
- 根据需要决定是否开启 ZDR(注意:开启后会排除部分 provider,如 Google AI Studio)
2. Kimi opt-out
发邮件至 membership@moonshot.ai:
- 说明 API 账户信息
- 明确要求 opt-out of training on prompts and generated content
- 保留发送记录
不能保证成功,但这是目前唯一的路径。
3. Nous Research
目前无操作路径。如果在意数据训练:
- 将主模型从 Nous 直连切换到 OpenRouter 路由的 provider
- 或接受这个风险(Nous 的免费额度确实有吸引力)
4. 通用原则
不要在任何 AI provider 上讨论不愿意被第三方看到的内容。即使 provider 声明不训练,数据保留期和安全漏洞始终存在。
总结
API 级别的数据训练政策差异巨大。OpenAI、Google、Anthropic 三家大厂默认不训练,是行业标杆。OpenRouter 作为中间层提供了有用的隐私控制。而 Nous Research 和 Kimi/Moonshot AI 的条款保留了训练权利,且 opt-out 机制要么不存在、要么形同虚设。
没有完美的隐私方案,但知情本身就是第一步。