一种基于Simhash算法的重复域名数据去重方法
所属分类:技术论文
上传者:zhoubin333
文档大小:559 K
标签: 数据去重 域名 Simhash
所需积分:0分积分不够怎么办?
文档介绍:随着数字科学技术的发展,各领域需要传输和存储的数据量急剧上升。然而传输和存储的数据中重复数量占据了很大的比例,这不仅会增加使用数据的成本,也会影响处理数据的效率。域名是一种存储量大而且对处理速率有极高要求的数据,为了节约域名解析系统的存储成本,提高传输效率,本文在原有数据去重技术的基础上,引入了Simhash算法,结合域名数据的结构特征,改进数据分词和指纹值计算方式,提出了一种基于Simhash算法的重复域名数据去重方法。实验结果表明,相比于传统的数据去重技术,该方法对删除重复域名数据效率更高,具有较好的实际应用价值。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。