为您提供网站建设行业资讯、网站优化知识、主机域名邮箱、网站开发常见问题等
搜索引擎网页去重算法分析
发表日期:2014-11-18 资讯来源:佰牛科技 浏览:128

相关佰牛网络【深圳网站建设】统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。
即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的!
搜索爬虫抓取会产生网页重复的类型:
1.多个URL地址指向同一网页以及镜像站点
如:www.sina.com 和www.sina.com.cn
指向同一个站点。
2. 网页内容重复或近似重复
如抄袭、转摘的内容,垃圾信息等
网页内容近似重复检测的两种应用场合:
一:在用户搜索阶段
目标是根据与用户给定的查询词找到已有索引列表中近似重复的文档,并排序输出。
二:爬虫抓取发现阶段
对一个新的网页,爬虫程序通过网页去重算法,最终决定是否对其索引。
搜索引擎整体构架
近似重复网页类型,根据文章内容和网页布局格式的组合分为4种形式:
一:两篇文档在内容和布局格式上毫无区别,则这种重复称为完全重复页面。
二:两篇文档内容相同,但布局格式不同,则这种重复称为内容重复页面。
三:两篇文档有部分重要的内容相同,并且布局格式相同,则这种重复称为布局重复页面。
四:两篇文档有部分重要内容相同,但布局格式不同,则这种重复称为部分重复页面。
近似重复网页举例
重复网页对搜索引擎的不利影响:
正常情况下,非常相似的网页内容不能或只能给用户提供少量的新信息,但在对爬虫进行抓取、索引和用户搜索 会消耗大量的服务器资源。
重复网页对搜索引擎的好处:
如果某个网页重复性很高,往往是其内容比较比较受欢迎的一种体现,也预示着该网页相对比较重要。应予以优先收录。当用户搜索时,在输出结果排序时,也应给与较高的权重。
重复文档的处理方式:
1.删除
2.将重复文档分组
SimHash文档指纹计算方法
1)从文档中提取具有权值的 特征集合来表示文档。如:假设特征都是由词组成的,词的权值由词频TF 来确定。
2)对每一个词,通过哈希算法生成N位(通常情况是64位或更多)的二进制数值,如上图,以生成8位的二进制值为例。每个词都对应各自不同的二进制值。
3)在N维(上图为8维)的向量V中,分别对每维向量进行计算。如果词相应的比特位的二进制数值为1,则对其特征权值进行加法运算;如果比特位数值为0,则进行减法运算,通过这种方式对向量进行更新。
4)当所有的词都按照上述处理完毕后,如果向量V中第i维是正数,则将N位的指纹中第i位设置为1,否则为0。
Jacccard相似性计算方法
如上图,A和B代表2个集合,集合C代表集合A和B相同的部分。 A集合包含5个元素,B集合包含4个元素,而两者相同的元素有2个,即集合C的大小是2. Jaccard计算两个集合相同的元素占总元素的比例。
如图中,集合A和集合B共有7个不同的元素,相同元素个数2个,所以集合A和集合B的相似性为:2/7
在实际应用中,集合A 和 集合B 的特征都会经过哈希计算,转化成N位(64位甚至更多)的二进制数值,从而将集合A和B的相似性比较转化为二进制数值的比较,称为'海明距离”的比较。两 个位数相同(如均为64位)相同位置上不同的二进制数值的个数称为'海明距离”。
对给定的文档A,假设经过特征抽取--哈希指纹运算后的二进制数值是:1 0 0 0 0 0 1 0
对给定的文档B, 假设经过特征抽取—哈希指纹运算后的二进制数值是:0 0 1 0 0 0 0 1
经过比较,文档A 和 B的 第1位、第3位、第7位、第8位四个位置的数值不同,即海明距离为4. 两个文档的二进制位数不同的个数越多,海明距离越大。海明距离越大,说明两个文档不相似性越大,反之,则越小。
不同搜索引擎可能会以不同的海明距离值 来判断两个网页内容是否近似重复。相关分析认为,一般情况下,对一个64位的二进制数值来说,将海明距离<=3作为判断是否近似重复的标准比较合理.
- 内容标签:
- 搜索引擎
- 网站建设与优化
- 淘宝网店网页设计
- 深圳网站建设
- 上一条:为什么有些站点不设置关键词排名却很好?
- 上一条:积累链接平台的几种方法
- 相关资讯
-
联系我们-新盛娱乐客服开户注册电话15559858555
首页-新盛娱乐公司-电话【15559858555】【微信】新盛公司微同步【在线客服-15559858555】开户电话-客服开户-热线开户-咨询-联系-代理开户-在线开户-开户网址-注册开户-开账号-开会员
日期:2025-06-25 浏览:100 -
浅谈Seo工作中执行力的重要性
总的来说’PDCAR法则”就是制定好计划马上实施,计划实施完毕后,将整个计划执行的过程回顾一遍,仔细考虑每个细节,确认哪些部分成功了,哪些部分是失败的。
日期:2016-05-16 浏览:120 -
SEO大牛是如何“原创”网站文章的?
首先是收集长尾关键词,你可以去百度指数、百度相关搜索栏、百度知道问答或者软件等等地方收集到长尾关键词。有一点要注意的是,我们收集好关键词后要进行整理,把明显不相关的长尾词筛选,比如搜索钢管时会出现"钢管舞"这跟做钢管这一产品词没有帮助。
日期:2016-05-16 浏览:123 -
外链建设如何影响网站关键词排名
再次是外链的相关性远比数量重要,很多SEOER做外链基本不注重相关性,在他们看来,只要悬挂外链的网站有高权重即可,并且觉得外链做的越多越好,也就是说十分注重外链的数量,忽略的质量。
日期:2016-05-16 浏览:122 -
如何识别SEO中的水货?
百科中原理写的是向百度发送数据包。大哥,你发了也得人家接收执行才行。这边如果写成『缓存溢出可执行漏洞』,那还具有一定可行性。而忽悠大师是不会这么深入研究的,他们最擅长的就是抛出一套理论,让你觉得很高深,很有效,其实具体怎么执行,往往他们都说不出个所以然来。
日期:2016-05-16 浏览:120 -
精简优化代码是做好SEO优化必须的一个步骤
尽量采用局您的页面,局的益处是让搜索引擎爬虫能够更顺遂的、更快的、更友好的爬完您的页面局还可以年夜量缩减网页巨细,这在SEO优化工作中起到很大的浸染,不仅提高浏览的速度,更使得代码更精练、流利、更轻易放置更多内容。
日期:2016-05-16 浏览:121 -
对于于门第上网站seo优化的网站操作
网站题目:关于一度新站来说是很首要的,第二天你网站题目就成为了呵呵,这可是举例,百度引擎可没有喜爱网站题目没有断变来边去,新站要安靖做兴起,就要想好一度面前的题目,假如斯后需求批改,也最好正在网站有所根底的状况下,遏制修正。
日期:2016-05-16 浏览:130 -
SEO优化 文章隐藏的文本和链接算是作弊?
在网站底部添加闪动的友情链接,只需要拉动到网站底部就可以看到一排闪动,从源代码里面可以看到,也有添加到其他地方的(这个情况一般都是网站被黑了,网站怎么预防请看:网站被黑预防措施)
日期:2016-05-13 浏览:122