《电子技术应用》
您所在的位置:首页 > 其他 > 设计应用 > 数据工厂的构成、建设模式和运营机制研究
数据工厂的构成、建设模式和运营机制研究
网络安全与数据治理
涂群1,耿贵宁2,张茜茜3
1.北京化工大学经济管理学院; 2.三六零数字安全科技集团有限公司; 3.北京物资学院计算机与人工智能学院
摘要: 高质量数据集是人工智能大模型训练的核心“燃料”。当前,高质量数据集构建主要由人工智能企业自行完成,呈现零散化、作坊式、非标化的特点,难以满足人工智能大模型快速发展的需求。借鉴水厂、电厂等资源型基础设施的发展规律,结合国内外高质量数据集设施化生产的典型实践,提出“数据工厂”概念,将其定义为面向人工智能大模型应用、设施化规模化构建高质量数据集的生产设施。系统阐述了数据工厂由“储备车间”“生产车间”“中试车间”构成的三级架构体系,分析了数据标注企业升级、数据存储基地转型、人工智能企业延伸和技术企业创新设立四种建设模式,提出了保障模式、定制模式、电商模式和结对子模式四种运营机制,为推动高质量数据集设施化、规模化供给提供理论支撑和实践参考。
中图分类号:F49文献标志码:ADOI:10.19358/j.issn.2097-1788.2026.04.002
中文引用格式:涂群,耿贵宁,张茜茜. 数据工厂的构成、建设模式和运营机制研究[J].网络安全与数据治理,2026,45(4):9-16.
英文引用格式:Tu Qun, Geng Guining, Zhang Qianqian. Research on the composition, construction models and operation mechanisms of data factories[J].Cyber Security and Data Governance,2026,45(4):9-16.
Research on the composition, construction models and operation mechanisms of data factories
Tu Qun1, Geng Guining2, Zhang Qianqian3
1. School of Economics and Management, Beijing University of Chemical Technology; 2. 360 Digital Security Technology Group Co., Ltd., ; 3. School of Computer Science and Artificial Intelligence
Abstract: High-quality datasets are the core fuel for training large AI models. Currently, the construction of high-quality datasets is mainly carried out by AI enterprises themselves, which presents the characteristics of fragmentation, workshopstyle operation and non-standardization, making it difficult to meet the rapid development needs of large AI models. Drawing on the development patterns of resource-based infrastructure such as water and power plants, and combining domestic and international best practices in facility-based production, this paper proposes the concept of "data factory",defining it as a production facility specifically designed for the application of large AI models and for the facility-based, largescale construction of highquality datasets. The paper systematically expounds the threelevel architecture system of the data factory, which consists of storage workshop, production workshop, and pilot workshop. Four construction models and four operation mechanisms are proposed, providing theoretical support and practical references for promoting the facilitybased and largescale supply of highquality datasets.
Key words : data factory; high-quality dataset; data infrastructure; data element

引言

算力、算法和数据是人工智能的三个关键要素,长期以来,高耗算力、模型闭源和数据短缺一直制约着人工智能大模型的应用普及。以DeepSeek为代表的人工智能企业,实现了MOE等关键技术重大突破并采取了模型开源策略,实现了“算力平权”和“算法平权”[1],促进人工智能大模型向通信、互联网、汽车、能源、金融、医疗等各行各业加速渗透,人工智能大模型广泛应用的时代已经到来。与此同时,一条面向人工智能的数据产业链正在快速形成:上游是公域数据资源和基础大模型,中上游是非结构化高质量数据集和行业高质量数据集,中下游是智能体和垂域大模型两类应用工具,下游则是千行百业的智能化应用。垂域大模型通过在特定领域的深度应用,已在药品研发、金融风控、医疗诊断等领域展现出专业级能力[2];智能体通过“感知—决策—执行”的闭环,在具身智能、工业制造、自动驾驶等场景实现实时交互与自主作业[3]。在这条产业链中,高质量数据集处于承上启下的关键位置:向上承接海量原始数据资源,向下支撑大模型训练和智能体运行。工具越成熟,应用越广泛,对高质量数据集的需求就越迫切。

然而,从原始数据到高质量数据集,还面临着三重困境。一是数据资源“供不出”。据IDC统计,全球非结构化数据占数据总量的80%以上[4],这类数据格式各异、标准不一,加之大量涉及隐私或商业秘密的私域数据开放意愿不足,导致绝大多数数据难以直接流通。二是行业数据“存不好”。高价值的行业数据大多分散保存在各部门、各企业,据统计每年约四成数据从未被使用过[5],大量潜在价值数据在沉睡中逐渐流失。三是高质量数据集“产不好”。当前高质量数据集的构建主要由人工智能企业自行完成[6],生产方式原始、效率低下,投入产出失衡、标准规范缺失[7]。

从全球发展趋势来看,高质量数据集的设施化、规模化生产已成为共识。美国Scale AI自2021年获得美国军方25亿美元合同后,从数据标注外包公司发展成为专业的数据工厂,构建了覆盖通用、生成式AI、公共部门、汽车等不同领域的专业化数据引擎矩阵[8]。美国2025年提出的“星际之门”项目整体投资5 000亿美元,将高质量数据明确定位为“国家战略资产”[9]。欧盟2025年推出数据联盟战略,建设数据实验室作为人工智能工厂的有机组成[10]。在国内,帕西尼2025年建成全球规模最大的具身智能数据采集基地,库帕思构建了包含403个功能模块的语料工具链平台。借鉴水厂、电厂等资源型基础设施的发展规律,本文提出“数据工厂”概念,系统研究其构成体系、建设模式和运营机制。


本文详细内容请下载:

http://www.chinaaet.com/resource/share/2000007054


作者信息:

涂群1,耿贵宁2,张茜茜3

(1. 北京化工大学经济管理学院,北京100029;

2.三六零数字安全科技集团有限公司,北京100015;

3.北京物资学院计算机与人工智能学院,北京101126)

2.jpg

此内容为AET网站原创,未经授权禁止转载。