成交率 发表于 2015-2-3 17:01:15

搜索引擎工作过程之爬行和索引

    搜索引擎的爬行和索引,就好像我们选择食物。例如。想吃海鲜。需要有已经抓来的海鲜可供食用,这可以理解为爬行。其次每个人会选择不同的海鲜,需要用户挑选,为了方便挑选,提取了一些关键字.这就是索引了。同样地,搜索引擎在完成爬行和索引这一系列工作的过程中,也需要完成类似的工作。但是。它们这个抓取的执行者是一种被称为“蜘蛛”的程序。不要上当。此“蜘蛛”非彼蜘蛛也。广下面介绍搜索引擎蜘蛛及其相关内容。
    1.什么是搜索引擎蜘蛛
    关于搜索引擎蜘蛛,需要通过几个概念来了解它。
    首先,搜索引擎蜘蛛可以归类为程序的一种,是搜索引擎的一个自动应用程序。程序形式通过模仿蜘蛛织网后的爬行、遍历爬行而展开。其次,通过搜索引擎系统的计算,来决定对哪些网站施行抓取,以及抓取的内容和频率值。搜索引擎的计算过程会参考某个网站在历史中的表现,比如内容是否足够优质.是否存在对用户不友好的设置(例如采用“欺骗”手段。将用户转移到其他网页),是否存在过度的搜索引擎优化行为等。爬行和抓取是搜索引擎工作的第一步,它完成真正意义上的数据收集任务。
    下面,认识爬行与遍历爬行。爬行是搜索引擎的一种行为,遍历爬行是搜索引擎的一种爬行方法。通过遍历爬行,实现蜘蛛在网上遍历的目的。
    2.过程:爬行和索引
    我们去一个目的地,需要通过走路或者坐车等方式。同理。蜘蛛从一个网站去往另一个网站,这就是爬行。如果想知道蜘蛛,可通过代码发现。方法是在日志文件中搜索“spider“这个词,如果搜索剥下列内容,讲明有蜘蛱存网站爬行。比如google蜘蛛:googlebot;百度蜘蛛:baiduspider;搜狗蜘蛛:sougouspider等等。
    下面认识索引,它和爬行最大的区别就是,索引不是一个特定URL,而是页面中的很多个URL。假如,蜘蛛爬行过程中抓取的网页若有重复内容,将不会被重复索引。
    3.如何进行抓取
    蜘蛛先抓取内容,然后再根据抓取的内容予以索引。这是蜘蛛工作的意义。网站更新后。产生了新的内容。这时,搜索引擎蜘蛛会通过互联网中某个指向该页面的链接进行访问和抓取,如果没有设置任何外部链接指向网站中的新增内容,蜘蛛将不会给予抓取处理。因此,及时更新网站的内容和有较广泛的外部链接非常重要。把这些信息都抓取到搜索引擎的服务器上,然后建立索引库。举例说明。我们可以把搜索引擎蜘蛛当作一个用户,这个用户来访问我们的网站。然后再把我们网站的内容保存到自己的电脑上! 文章整理来源广州营销策划公司:http://www.chengjiaolv.com/
页: [1]
查看完整版本: 搜索引擎工作过程之爬行和索引