| 数据仓库中重复记录清理算法研究 | |
| 所属分类:技术论文 | |
| 上传者:aet | |
| 文档大小:967 K | |
| 标签: 自动化软件 | |
| 所需积分:0分积分不够怎么办? | |
| 文档介绍:针对重复记录清理中的“排序、识别、合并”算法存在的问题进行了改进。改进后的重复记录清理算法在保证记录匹配率的情况下有效地提高了记录排序的效率;在重复记录识别时,考 虑了匹配字段的文字数量、在2 个字段中出现的频率、在记录中各字段的重要性( 权重) 、中文字段的语义和语义重点偏后等5 个因素;合并重复记录时采用了聚类和实用算法并用的策略,有效地提高了数据仓库中重复记录清理算法的准确性和健壮性。 | |
| 现在下载 | |
| VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。 | |
Copyright © 2005-2024 华北计算机系统工程研究所版权所有 京ICP备10017138号-2