搜索引擎对网站内容的提取

发表日期:2015-03-28   资讯来源:佰牛科技   浏览:133

搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网 络蜘蛛正确跟踪其它链接有一定影响。 对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。

HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式, 提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信 息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程 度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候, 也需要过滤这些无用的链接。例如某个网站有'产品介绍'频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索'产品介绍'的时候,则网站内 每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。

对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为'张曼玉照片',其链接指 向一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是'张曼玉的照片'。这样,在搜索'张曼玉'和'照片'的时候都能让搜索引擎找到这张图片。另外,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的内容。

动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网 页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型的网页对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和JavaScript)生成的网页,如果要完 善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓 取带来很大的困难。对于这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。

对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种 方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。

内容标签:
搜索引擎
网站内容的提取
p2p网站建设
网站开发建设
网页建设公司
{ solution_title }
相关资讯

【签约】深圳目路教育官网网站建设项目

目路SEEPATHS专注于为学生家庭提供教育升学的定制服务。团队持续运营超过8年,目前已经发展成为一家以升学结果为导向,多元化道路与学生背景条件相结合的高端专业、实现学生个性化升学规划的服务机构。

日期:2020-09-24    浏览:116

【签约】深圳中浩建设官网建设项目

深圳中浩建设实业有限公司成立于2000年,是一家专业从事沥青路面施工,集工程投资管理,沥青路面,彩色沥青路面,路面养护维修为一体的公司。

日期:2018-07-12    浏览:116

【签约】深圳财阜集团APP开发项目

财阜集团的是一家扎根香港,并专注于为所有客户和会员提供一站式海外资产配置及服务的综合集团。

日期:2019-05-03    浏览:111

【签约】大可智能教育信息网平台网站建设项目

大可智能教育信息网面向全国一线教师和学生,提供高考、留学、考级考试以及 各年级相关备课、迎考的专业资源。

日期:2017-09-20    浏览:111

【签约】深圳活石学院教育平台项目

活石学院,源自香港,提供DSE课程学习,留学权威,服务全球,以及服务香港本地中小幼升学,规划香港及海外大学本科留学,是业内首屈一指的香港教育专家。

日期:2018-11-03    浏览:109

网站长尾关键词优化的六大法宝

长尾关键词,按字面理解就是搜索长度长,有2至3个词组成的词语,而用户有可能会用的这些词进行搜索。那么,对于已经存在的长尾词需要怎么优化呢?接下来分享长尾词优化的六大法宝。

日期:2018-07-05    浏览:163

用户粘性提高才能够保证网站良性发展

网站优化都有很多公司来说都是非常重要的,因为如果你的网站上要是有更多的客户的话,那么势必要在网站优化上下一些功夫,如果网站是比较好的话,那么这种网站它的用户粘性相对来说应该是比较高的,因为用户粘性对于我们建站的人来说是非常的重要的,因为只有用户粘性能够提高的话,才能够保证我们的网站运营中能够良性发展。

日期:2018-07-05    浏览:154

这些网站图片优化小技巧十分受用

图片优化是网站要进行优化的一个十分重要的方面,传统意义上的优化仅仅只是图片要加alt标签或是仅仅压缩。但这样太过粗陋,以下带来详细技巧。

日期:2018-07-05    浏览:122