《电子技术应用》
您所在的位置:首页 > 其他 > 设计应用 > 数据工厂:国家数据基础设施的新兴业态
数据工厂:国家数据基础设施的新兴业态
网络安全与数据治理
张茜茜1, 殷宏宇2,杨光3
1.北京物资学院计算机与人工智能学院; 2.北京联海信息系统有限公司; 3.中国信息安全测评中心
摘要: 数据要素化价值化面临“供不出、流不动、用不好”的普遍难题,其核心原因在于数据生产业态尚未成熟,高质量数据集仍以作坊式生产为主,无法满足人工智能大模型对数据的规模化需求。针对这一问题,提出“数据工厂”这一概念,将其界定为面向人工智能大模型应用,开展高质量数据集设施化、规模化、标准化生产的数据基础设施。通过梳理工业社会、信息社会和数智社会基础设施业态的演进规律,论证了数据工厂作为国家数据基础设施基本构成单元的理论逻辑。在此基础上,依据物理分布、组织方式和技术水平等特征,将数据工厂划分为集中式、半集中式和分布式三种类型,并归纳出多样化、设施化、规模化、标准化和人工智能化五大特点。研究认为,发展数据工厂能够有效突破人工智能数据供给瓶颈,推动数据产业链上下游协同,是打通数据赋能人工智能“最后一公里”的关键路径。
中图分类号:F49文献标志码:ADOI:10.19358/j.issn.2097-1788.2026.04.001
中文引用格式:张茜茜, 殷宏宇,杨光. 数据工厂:国家数据基础设施的新兴业态[J].网络安全与数据治理,2026,45(4):2-8.
英文引用格式:Zhang Qianqian,Yin Hongyu,Yang Guang. Data Factory: an emerging form of national data infrastructure[J].Cyber Security and Data Governance,2026,45(4):2-8.
Data Factory: an emerging form of national data infrastructure
Zhang Qianqian1,Yin Hongyu2,Yang Guang3
1.School of Computer Science and Artificial Intelligence, Beijing Wuzi University; 2.Beijing Lianhai Information Systems Co., Ltd.; 3.China Information Technology Security Evaluation Center
Abstract: The valorization of data as a factor of production faces widespread challenges, including insufficient supply, restricted circulation, and ineffective utilization. The core reason lies in the immaturity of data production modes, where highquality datasets still rely on workshopstyle production that fails to meet the largescale data demands of Artificial Intelligence (AI) large models. To address this problem, the concept of "Data Factory" is proposed and defined as a data infrastructure dedicated to the facilitybased, largescale, and standardized production of highquality datasets for AI large model applications. By tracing the evolution of infrastructure forms across industrial society, information society, and dataintelligent society, the theoretical logic of Data Factory as a fundamental building block of national data infrastructure is established. Based on characteristics such as physical distribution, organizational structure, and technological sophistication, Data Factories are classified into three types: centralized, semicentralized, and distributed. Five key features are identified: diversity, facilityorientation, scalability, standardization, and AIintegration. The study concludes that the development of Data Factories can effectively break through the data supply bottleneck in AI development, promote upstream and downstream collaboration in the data industry chain, and serve as a critical path to bridge the "last mile" gap between data and AI empowerment.
Key words : Data Factory; data infrastructure; highquality dataset; data factorization

引言

数据是数字经济时代的关键生产要素。2022年12月,中共中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)[1],首次从国家制度层面系统部署了数据产权、流通交易、收益分配和安全治理等基础制度框架,标志着我国数据要素化进入制度建设新阶段。2024年12月,国家数据局发布《国家数据基础设施建设指引》[2],明确提出要构建横向联通、纵向贯通、协调有力的国家数据基础设施体系,为数据要素的大规模流通利用提供底座支撑。与此同时,全球主要经济体也在加快数据基础设施战略布局,欧盟发布《欧洲数据战略》[3],提出建设欧洲数据空间;美国通过“星际之门项目”大规模投资AI基础设施[4]。这些政策实践表明,数据基础设施已成为大国竞争的战略制高点。

然而,数据要素化价值化在实践中仍面临“供不出、流不动、用不好”的普遍难题[5]。一方面,算力、算法和数据作为人工智能的三大要素[6],在算力和模型技术快速迭代的同时,高质量数据集的供给严重滞后,特别是2025年初DeepSeek的崛起大幅降低了大模型应用门槛,使得数据供给瓶颈更加凸显。另一方面,长期存储于政府、企业中的私域数据因安全顾虑难以流通,高质量数据集仍以作坊式、分散化方式生产,无法满足大模型对数据的规模化、标准化需求。数据产业链上下游企业难以协同,数据“采而不存、存而不治、治而不用”的现象普遍存在。

从基础设施演进的视角看,在工业社会,水厂、电厂是加工生产战略资源的基本业态;在信息社会,网络厂商、算力厂商承担了类似角色;进入数智社会,数据已成为国家战略资源,但作为数据基础设施基本业态的“数据工厂”尚未形成。现有研究对数据治理[7-8]、数据要素市场化配置[9-10]、数据流通与共享机制[11-12]以及数据确权与价值评估[13]等方面已有较多探讨,但对于如何构建面向人工智能大模型的规模化数据生产设施,尚缺乏系统的理论阐释和概念界定。

正如工业社会水有水厂、电有电厂,数据工厂正在成为数智社会的一种新兴生产业态。发展数据工厂,不仅是顺应全球数智化发展趋势的必然选择,而且对于创新国家数据基础设施新型业态,打造高质量数据集规模化供给设施,推动数据产业高质量发展,打通数据赋能人工智能“最后一公里”等方面,具有重大理论意义和实践价值。


本文详细内容请下载:

http://www.chinaaet.com/resource/share/2000007053


作者信息:

张茜茜1, 殷宏宇2,杨光3

(1.北京物资学院计算机与人工智能学院,北京101126;

2.北京联海信息系统有限公司,北京100043;

3.中国信息安全测评中心,北京100085)

2.jpg

此内容为AET网站原创,未经授权禁止转载。