基于单页语义特征的垃圾网页检测
所属分类:技术论文
上传者:zhoubin333
文档大小:3500 K
标签: 垃圾网页检测 特征提取 记忆化搜索
所需积分:0分积分不够怎么办?
文档介绍:为解决垃圾网页检测中特征提取难度高、计算量大的问题,提出一种仅基于当前网页的HTML脚本提取语义特征的方法。首先使用深度优先搜索和动态规划相结合的记忆化搜索算法对域名进行单词切割,采用隐含狄利克雷分布提取主题词,基于Word2Vec词向量和词移距离计算3个单页语义相似度特征;然后将单页语义相似度特征融合单页统计特征,使用随机森林等分类算法构建分类模型进行垃圾网页检测。实验结果表明,基于单页内容提取语义特征融合单页统计特征进行分类的AUC值达到88.0%,比对照方法提高4%左右。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。