GitHub 今日宣布调整 Copilot 交互数据的使用政策,这一决定自四月 24 日起生效。从即日起,免费、专业及专业增强版用户的代码输入与上下文信息将默认用于训练 AI 模型。此举旨在利用真实世界的数据提升代码建议的准确性与安全性,从而优化整体开发体验。这一决定引发了业界的广泛关注,标志着 AI 工具数据策略的重大调整。
政策变更主要针对个人用户订阅层级,企业版用户不受此次更新影响。Copilot Business 和 Enterprise 用户的交互数据将继续保持隔离状态,确保商业机密安全。企业版用户的数据处理流程保持不变,以维持商业信任。这一区分确保了商业客户的隐私需求得到满足,同时维持了个人用户的参与度,避免大规模数据迁移风险。
用户可在设置中的“隐私”选项里选择退出数据训练计划,操作路径清晰明确。退出选项位于账户设置页面的显眼位置,方便用户快速操作。此前已选择退出的用户偏好将被保留,数据不会被用于模型训练,尊重用户的历史选择。除非用户主动重新选择加入,否则现有隐私设置维持不变,保障用户对自身数据的控制权。
参与计划的数据收集范围包括接受或修改的代码输出,以及输入发送的提示词。这些数据将直接用于微调底层大语言模型,以提高预测能力。系统还会收集光标位置的上下文代码、注释及文档内容,以便模型理解开发场景。文件名称、仓库结构及导航模式也在收集列表之中,这些细节有助于构建更完善的开发知识库。
此外,用户对建议的反馈评分也会被纳入分析数据,帮助识别高质量代码模式。GitHub 明确表示不会使用商业版或企业版仓库的交互数据,也不会触碰私有仓库中处于静止状态的内容。处于静止状态的内容指未提交到仓库的代码片段,不受此政策约束。仅活跃交互数据除外,因为 Copilot 需要处理代码才能运行服务,但存储内容不受影响。
首席产品官 Mario Rodriguez 表示,真实世界的数据能显著改善模型表现,这是技术发展的关键。Mario Rodriguez 拥有超过二十年的技术领导经验,曾主导多项 Microsoft 重大产品发布。微软员工数据的引入已证明能提升多语言代码的采纳率,效果显著。GitHub 计划将这一经验推广至更广泛的开发者群体,以加速技术迭代,缩小公共数据与真实需求的差距。
收集的数据可能与 GitHub 关联公司共享,其中包括微软在内的公司。微软作为母公司,其数据治理标准同样适用,确保合规性。数据不会与第三方 AI 模型提供商或其他独立服务提供商分享,保持数据闭环。这种内部共享机制有助于维护代码的生态完整性,防止数据泄露风险,同时确保训练数据的合规性。
该做法符合当前人工智能行业的通用实践标准,多家科技巨头均采用类似策略。此举标志着 AI 辅助编程进入数据驱动的新阶段,成为行业趋势。利用用户交互数据训练模型已成为提升生成式 AI 能力的常见路径,平衡了性能与隐私。行业内的类似举措有助于推动开发工具的整体进化,实现技术层面的良性竞争。
参与训练计划将帮助模型更好地捕捉潜在漏洞,减少生产环境中的错误。长期来看,这将显著降低软件维护成本,提升企业交付效率。更智能的模型能提供更准确的代码模式建议,降低人工审查成本。这将加速开发工作流程并提升软件质量,最终实现更高效的软件开发生命周期。
用户如有疑问可访问官方 FAQ 及相关讨论区获取详细支持信息。更多信息请查阅 GitHub 官方发布的详细文档,了解最新条款。GitHub 强调不参与计划的用户仍可完整使用现有 AI 功能,权益不受影响。双方共同努力旨在构建服务整个开发者社区的智能工具,实现技术普惠与共赢发展。