机器学习中已公开个人数据的合法利用路径
网络安全与数据治理
王婉清
华东政法大学 中国法治战略研究院
摘要: 已公开个人数据作为机器学习的重要训练语料 , 应对其秉持开放利用的 目标取向 。但采取宽松获取策 略 , 却由于爬取范围不清晰 、用于生成式 AI存在侵权风险 、个人数据主体难以行使信息自决权而面临合法利用 的实践困境 。检视困境成因 , 应围绕机器学习应用全周期 , 构建已公开个人数据的合法利用路径 : 在数据获取 阶段 , 评估爬取行为的正当性与潜在影响 , 若涉及竞争性权益 , 应转向 API 授权等合法路径 , 确保数据来源合 法 ; 在机器学习智力成果投入应用阶段 , 应依据个人信息种类设置分类安全机制 , 并实时监督以防范隐私泄露 与滥用风险; 在应用投放市场后 , 应构建训练数据披露机制 , 以透明度支持用户干预 , 保障个人信息自决权的 实现。
中图分类号 : D922. 17 ; TP181 文献标志码 : A DOI :10.19358/j.issn.2097-1788.2026.02.010
中文引用格式 : 王婉清. 机器学习中已公开个人数据的合法利用路径 [J]. 网络安全与数据治理 , 2026 , 45(2) : 73 - 80.
英文引用格式 : Wang Wanqing. Legal use of publicly available personal data in machine learning [J]. Cyber Security and Data Govern-
ance, 2026 , 45(2) : 73 - 80.
中文引用格式 : 王婉清. 机器学习中已公开个人数据的合法利用路径 [J]. 网络安全与数据治理 , 2026 , 45(2) : 73 - 80.
英文引用格式 : Wang Wanqing. Legal use of publicly available personal data in machine learning [J]. Cyber Security and Data Govern-
ance, 2026 , 45(2) : 73 - 80.
Legal use of publicly available personal data in machine learning
Wang Wanqing
China Institute for Rule of Law Strategy, East China University of Political Science and Law
Abstract: Publicly available personal data, as a crucial corpus for machine learning training, should in principle be governed by an orientation toward open utilization and more permissive acquisition strategies. However, practical challenges arise in lawful use due to ambiguities in the scope of web scraping, potential infringement risks in generative AI applications, and the difficulty for data subjects to exercise informational self-determination. To address the dilemma of lawful use, it is necessary to construct a legal utilization pathway for such data throughout the full machine learning cycle. During the data collection stage, the legitimacy and potential impact of web scraping should be assessed. If competitive interests are involved, access should shift to lawful channels such as API authorization to ensure data sources are legal. In the application stage of machine learning outputs, a classified security mechanism should be established based on the type of personal information, with real-time su- pervision to prevent privacy breaches and misuse. After deployment in the market, a data disclosure mechanism should be implemented to sup- port user intervention through transparency and safeguard the right to personal information autonomy.
Key words : publicly available personal data; machine learning; competitive interests; personal data protection; information disclosure
引言
目前 , 我国的人工智能 ( Artificial Intelligence , AI) 已经进入统筹安全与创新发展的新阶段[1] 。人工 智能系统多以机器学习 (Machine Learning) 为基础技 术路径 。例如 , 生成式 AI 的工作原理是基于海量数据 学习总结规律 , 不断优化模型 , 依据操作者指令生成 新的内容 。而总结规律的过程便是机器学习环节[2] 。 机器学习利用数据和算法 , 通过模型训练学习 、参数调优来逐步提高决策准确性[3] , 最终形成预测 、判断 等信息智能 , 实现特定目标[4] 。
在以数据为核心驱动的人工智能技术体系中 , 机 器学习对训练数据的依赖性愈发显著 。与传统软件开 发的预设固定规则不同 , 机器学习通过对海量数据的 自主学习来完成能力迁移与性能优化 。因此 , 高质量 语料成为影响模型效果的关键变量 。而网络空间中的 已公开个人数据因获取便利 、信息密度高等特征 , 符合生成式人工智能研发对训练语料的需求 , 因而被广 泛采集并成为训练集的重要组成部分 , 用于支撑机器 学习模型构建和优化 , 应用于用户个性化推荐 、 自然 语言处理 、人脸识别训练 、金融风控与信用评估等场 景 。因此 , 在机器学习中如何高效规范地利用已公开个人数据 , 已成为人工智能发展和个人信息权益保护 的重要课题。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006992
作者信息:
王婉清
(华东政法大学 中国法治战略研究院 , 上海 200042)

此内容为AET网站原创,未经授权禁止转载。
