xiand.ai
科技

GitHub 更新 Copilot 数据使用政策 免费及高级用户代码数据将用于模型训练

GitHub 今日宣布调整 Copilot 交互数据的使用政策,自四月 24 日起,个人用户代码数据将默认用于 AI 模型训练。企业版用户不受影响,且用户可随时在设置中退出。此举旨在利用真实世界数据提升代码建议准确性与安全性,符合行业通用实践标准。

La Era

1 分钟阅读

GitHub Updates Copilot Data Policy to Train AI Models on Free and Pro User Interactions
GitHub Updates Copilot Data Policy to Train AI Models on Free and Pro User Interactions

GitHub 今日宣布调整 Copilot 交互数据的使用政策,这一决定自四月 24 日起生效。从即日起,免费、专业及专业增强版用户的代码输入与上下文信息将默认用于训练 AI 模型。此举旨在利用真实世界的数据提升代码建议的准确性与安全性,从而优化整体开发体验。这一决定引发了业界的广泛关注,标志着 AI 工具数据策略的重大调整。

政策变更主要针对个人用户订阅层级,企业版用户不受此次更新影响。Copilot Business 和 Enterprise 用户的交互数据将继续保持隔离状态,确保商业机密安全。企业版用户的数据处理流程保持不变,以维持商业信任。这一区分确保了商业客户的隐私需求得到满足,同时维持了个人用户的参与度,避免大规模数据迁移风险。

用户可在设置中的“隐私”选项里选择退出数据训练计划,操作路径清晰明确。退出选项位于账户设置页面的显眼位置,方便用户快速操作。此前已选择退出的用户偏好将被保留,数据不会被用于模型训练,尊重用户的历史选择。除非用户主动重新选择加入,否则现有隐私设置维持不变,保障用户对自身数据的控制权。

参与计划的数据收集范围包括接受或修改的代码输出,以及输入发送的提示词。这些数据将直接用于微调底层大语言模型,以提高预测能力。系统还会收集光标位置的上下文代码、注释及文档内容,以便模型理解开发场景。文件名称、仓库结构及导航模式也在收集列表之中,这些细节有助于构建更完善的开发知识库。

此外,用户对建议的反馈评分也会被纳入分析数据,帮助识别高质量代码模式。GitHub 明确表示不会使用商业版或企业版仓库的交互数据,也不会触碰私有仓库中处于静止状态的内容。处于静止状态的内容指未提交到仓库的代码片段,不受此政策约束。仅活跃交互数据除外,因为 Copilot 需要处理代码才能运行服务,但存储内容不受影响。

首席产品官 Mario Rodriguez 表示,真实世界的数据能显著改善模型表现,这是技术发展的关键。Mario Rodriguez 拥有超过二十年的技术领导经验,曾主导多项 Microsoft 重大产品发布。微软员工数据的引入已证明能提升多语言代码的采纳率,效果显著。GitHub 计划将这一经验推广至更广泛的开发者群体,以加速技术迭代,缩小公共数据与真实需求的差距。

收集的数据可能与 GitHub 关联公司共享,其中包括微软在内的公司。微软作为母公司,其数据治理标准同样适用,确保合规性。数据不会与第三方 AI 模型提供商或其他独立服务提供商分享,保持数据闭环。这种内部共享机制有助于维护代码的生态完整性,防止数据泄露风险,同时确保训练数据的合规性。

该做法符合当前人工智能行业的通用实践标准,多家科技巨头均采用类似策略。此举标志着 AI 辅助编程进入数据驱动的新阶段,成为行业趋势。利用用户交互数据训练模型已成为提升生成式 AI 能力的常见路径,平衡了性能与隐私。行业内的类似举措有助于推动开发工具的整体进化,实现技术层面的良性竞争。

参与训练计划将帮助模型更好地捕捉潜在漏洞,减少生产环境中的错误。长期来看,这将显著降低软件维护成本,提升企业交付效率。更智能的模型能提供更准确的代码模式建议,降低人工审查成本。这将加速开发工作流程并提升软件质量,最终实现更高效的软件开发生命周期。

用户如有疑问可访问官方 FAQ 及相关讨论区获取详细支持信息。更多信息请查阅 GitHub 官方发布的详细文档,了解最新条款。GitHub 强调不参与计划的用户仍可完整使用现有 AI 功能,权益不受影响。双方共同努力旨在构建服务整个开发者社区的智能工具,实现技术普惠与共赢发展。

评论

评论存储在您的浏览器本地。