GitHub官宣4月更新代码库政策,用户交互数据将用于AI模型训练

近日,全球知名代码托管平台 GitHub 正式对外宣布,将于 2026 年 4 月 24 日起更新其代码库相关政策,核心调整为计划收集用户交互数据,用于自身 AI 模型的训练优化。这一政策变动,不仅牵动着全球开发者的隐私神经,也被视为 GitHub 在 AI 开发者工具领域深化布局的重要信号。
据悉,此次数据采集并非全面覆盖所有用户,其范围主要针对 Copilot Free、Copilot Pro 及 Copilot Pro+三个版本的用户。具体而言,将纳入训练的用户数据包括模型的输入与输出内容、各类代码片段、交互上下文信息、代码仓库结构,以及用户与平台的聊天交互记录,基本涵盖了用户使用 Copilot 相关服务的核心操作轨迹。
针对此次政策调整,GitHub 首席产品官 Mario Rodriguez 作出回应,他表示,收集用户交互数据的核心目的,是为了进一步提升 AI 模型给出代码建议的准确率与安全性。同时他透露,微软内部已提前开展相关数据测试,测试结果显示,基于用户交互数据的模型优化,已显著提升了代码建议的接受率,验证了该举措的可行性。
值得关注的是,此次政策采用“预设加入”的默认机制——即受影响用户若不愿自己的数据被用于 AI 训练,需手动进入平台隐私设置界面,关闭相关授权选项方可退出。这一设置也迅速引发开发者社区的广泛热议,核心争议集中在私有仓库的定义边界以及用户数据的确权问题上,不少开发者担忧私有代码的安全性与知识产权保护问题,这与当前《数据安全法》《个人信息保护法》中关于数据隐私与知识产权保护的要求形成了现实探讨空间。
GitHub 在政策说明中明确,受现有合同条款约束的 Copilot Business、Copilot Enterprise 版本用户,以及教育版用户,暂时不会受到此次政策变更的影响。同时平台强调,收集用户数据用于 AI 训练的做法,并非个例,而是 Anthropic、JetBrains、微软等科技大厂普遍遵循的行业惯例。但即便如此,将私有仓库中的代码纳入 AI 训练数据集的行为,仍在本质上挑战了传统意义上“私有”的核心边界,即便 GitHub 声称此举是为了优化开发者的工作流程、提升开发效率。要知道,在金融、医疗等对代码安全要求极高的行业,代码库作为核心资产,其数据泄露风险直接威胁企业生存,这也让开发者对私有代码的使用安全更为关注。
从整个行业发展视角来看,当前高质量的公域代码数据已逐渐趋于枯竭,头部 AI 厂商为了寻求模型性能的进一步突破、抢占技术红利,正加速转向挖掘私有交互数据这类“深层数据”。业内分析认为,GitHub 此次政策调整,不仅标志着其自身从单纯的开源代码托管平台,向闭环式 AI 训练生态的进一步倾斜,更预示着 AI 开发者工具领域,正正式进入数据合规与模型演进相互博弈、协同发展的全新阶段,而如何在技术创新与数据安全、隐私保护之间找到平衡,将成为全行业面临的共同课题。
以上关于GitHub官宣4月更新代码库政策,用户交互数据将用于AI模型训练的文章就介绍到这了,更多相关内容请搜索码云笔记以前的文章或继续浏览下面的相关文章,希望大家以后多多支持码云笔记。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 admin@mybj123.com 进行投诉反馈,一经查实,立即处理!
重要:如软件存在付费、会员、充值等,均属软件开发者或所属公司行为,与本站无关,网友需自行判断
码云笔记 » GitHub官宣4月更新代码库政策,用户交互数据将用于AI模型训练
微信
支付宝