搜索引擎蜘蛛,一般是指网络爬虫(web crawler),别名:网络蜘蛛、蠕虫、网络机器人、网页追逐者,是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。
网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
我们可以将互联网理解成一张巨大的“蜘蛛网”,而搜索引擎蜘蛛是类似实质的“机器人”。蜘蛛的主要任务就是在巨大的蜘蛛网(互联网)中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,然后建立索引库。就好比机器人浏览我们的网站,然后把内容保存到自己的电脑上。
主流搜索引擎蜘蛛的名称
每个搜索引擎都有自己的专属蜘蛛,目前主流搜索引擎,国内有百度、360搜索、搜狗、神马、头条,国外的有谷歌、必应等。boke112百科根据本站的日志得出它们的蜘蛛名称如下:
百度:Baiduspider
360搜索:360Spider
搜狗:Sogou web spider
神马:YisouSpider
头条:Bytespider
谷歌:Googlebot
必应:bingbot