SEOer需要掌握重要且易混淆的SEO概念

转载   SEO每天一贴  2017-10-17 07:27:12  98 人阅读  27 条评论

投放广告联系   诚邀合作伙伴   赞助我们   垃圾评论惩罚

很多SEOer并没有理解爬行、抓取、索引、收录这些概念到底指的是什么,区别在哪,noindex、nofollow、robots文件的功能又是什么。对这些概念没有精准理解,处理大型网站结构,决定什么页面需要被抓取,什么需要被索引,哪些页面需要禁止抓取、索引等等情况时,就很难明白该怎么做。所以今天就把重点说说这些很基本但又很重要,而且又比较容易混淆的SEO概念。

SEOer需要掌握重要且易混淆的SEO概念 建站经验 第1张

爬行是什么?

爬行指的是搜索引擎蜘蛛从已知页面上解析出链接指向的 URL,然后沿着链接发现新页面(也就是链接指向的 URL)的过程。当然,蜘蛛并不是发现新 URL 马上就爬过去抓取新页面,而是把发现的 URL 存放到待抓地址库中,蜘蛛按照一定顺序从地址库中提取要抓取的 URL。

抓取是什么?

抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的 URL,访问这个 URL,把读取的 HTML 代码存入数据库。蜘蛛的抓取就是像浏览器一样打开这个页面,和用户浏览器访问一样,也会在服务器原始日志中留下记录。

索引是什么?

索引指的是将一个 URL 的信息进行整理,存入数据库,也就是索引库,用户搜索时,搜索引擎从索引库中提取 URL 信息并排序展现出来。索引的英文是 index。索引库是用于搜索的,所以被索引的 URL 是可以被用户搜索到的,没有被索引的 URL 用户在搜索结果中是看不到的。

要注意的是,所谓“一个 URL 的信息“,并不限于蜘蛛从 URL 上抓取来的内容,还有来自其它来源的信息,如外部链接、链接的锚文字等。有的时候,索引库中关于这个 URL 的的信息,根本没有从这个 URL 抓取来的内容,但搜索引擎知道这个 URL 的存在,并且有一些其它信息。

收录是什么?

我个人觉得收录和索引没有区别。只不过收录是从搜索用户角度看的,搜索时能找到这个 URL,就是这个 URL 被收录了。从搜索引擎角度看,URL 被收录了,也就是这个 URL 的信息在索引库中存在。英文并没有收录这个词,和索引用的是同一个词 index。

Noindex 的作用是什么?

页面头信息中放上 meta noindex 标签是告诉搜索引擎不要索引这个URL,也就是用户搜索时找不到这个 URL 的信息,这个 URL 不会返回在搜索结果列表中。

Noindex 不是告诉搜索引擎不要抓取这个 URL,实际上,noindex 要起作用,这个 URL 是必须先被抓取的,不然搜索引擎怎么看到页面 HTML 代码中有 noindex标 签呢?

robots文件的作用是什么?

Robots 文件是告诉搜索引擎,某些 URL 不要抓取。注意,这里说的是不要抓取,没说不要索引。和 noindex 是正相反的。

nofollow的作用是什么?

给链接加上 nofollow 属性是告诉搜索引擎,不要沿着这个链接爬行,就当这个链接不存在。注意,nofollow 只是告诉蜘蛛不要爬这个链接,没有说不要抓取链接指向的 URL,也没有说不要索引链接指向的 URL,nofollow 既没禁止抓取,也没禁止索引。

没有被抓取的页面是可以被索引的

也就是说,蜘蛛没有访问和抓取这个页面(比如被 robots 文件禁止抓取),这个页面却有信息存在索引库中,用户搜索时还能看到。

比如,淘宝整个网站用 robots 文件禁止百度蜘蛛抓取,但没有用noindex 禁止索引(如上面说的,禁止抓取后,就没办法禁止索引了,不抓取,就看不到 noindex 标签了),所以即使百度没有访问和抓取淘宝页面,但淘宝很多页面是被百度索引的,用户可以搜到的:

SEOer需要掌握重要且易混淆的SEO概念 建站经验 第2张

百度从网上那么多链接知道淘宝首页的存在,通过链接的锚文字也知道这个页面标题大概是淘宝之类的,当然更知道百度口碑里的评价数。所以即使百度蜘蛛没有抓取淘宝首页,用户还是能搜到,并且显示一些百度知道的信息。

要想百度不能返回淘宝首页该怎么办呢?取消 robots 文件的禁止抓取,页面上用 noindex 禁止索引。

被抓取的页面是可以不被索引的

最常见的就是上面说过的,页面头信息使用 noindex 禁止索引,页面被抓取,读到 noindex 后,不被索引,不会在搜索结果中返回。

还有可能是因为页面内容是抄袭、转载、低质量的,搜索引擎虽然抓取了页面,索引过程中检测出这些内容问题,被丢弃,没有被索引。所以页面没有被收录,通常要先检查原始日志,看看是否被抓取过,如果被抓取过,可能是内容质量问题,如果根本没被抓取,建议先看看网站结构是否有问题。

加了nofollow的链接目标页面可以被抓取和索引

前面说了,nofollow 既不禁止抓取,也不禁止索引。Nofollow 的作用是告诉蜘蛛不要跟着这个链接爬,就当这个链接不存在,但 nofollow 只对这个链接起作用,对别的链接没作用,这个链接加了 nofollow,不意味着别的地方就没有正常的指向这个 URL 的链接,只要别的地方出现了没加 nofollow 的链接,目标 URL 还是会被发现、抓取(假设没被 robotx 文件禁止)、索引(假设没加 noindex )。

拓展阅读

历史上的今天:

文章标签: ,   ,   ,  
温馨提示:文章内容仅代表作者个人观点,不代表boke112导航赞同其观点和对其真实性负责!
版权声明:本文为转载文章,来源于 SEO每天一贴 ,版权归原作者所有,欢迎分享本文,转载请保留出处!
淘宝天猫无门槛专享优惠券

 发表评论


  1. 安里云丨资源分享
    安里云丨资源分享 【秀才】 @回复

    SEO任重道远。

  2. 夏天烤洋芋
    夏天烤洋芋 【状元】 @回复

    概念我都还是懂的。能用白话文给不懂的人解释的。

  3. 吃货小栈
    吃货小栈 【举人】 @回复

    咦,还没有更新?啥情况呀?

  4. 农家土蜂蜜网
    农家土蜂蜜网 【秀才】 @回复

    坚持就是胜利啊!

  5. 饮料测评网
    饮料测评网 【状元】 @回复

    对于seo还在摸索中前进

  6. 里维斯社
    里维斯社 【进士】 @回复

    一直不知道nofollow是个啥功能,只是在加友链的时候,有看到nofollow限制的

  7. 爆爆小妹
    爆爆小妹 【秀才】 @回复

    seo是站长门最挠头的问题!! [围观]

  8. 吃货小栈
    吃货小栈 【举人】 @回复

    这么多年了,我从来没有SEO过!无语了!

  9. 明星化妆台
    明星化妆台 【秀才】 @回复

    这些基本概念很重要!

  10. 靠谱学生兼职网
    靠谱学生兼职网 【尚书】 @回复

    看来在SEO方面,我还是个幼儿园级别啊。

  11. 老薛主机优惠码
    老薛主机优惠码 【书童】 @回复

    [哈哈] 查漏补缺了。

  12. 品牌馆
    品牌馆 【举人】 @回复

    分享的很多位,对我帮助很大

  13. 雅兮网
    雅兮网 【尚书】 @回复

    SEO很细微,如果每个地方都能够用心的去做优化 我相信,长期坚持会带来意想不到的收获

  14. 拿着灼热的铁
    拿着灼热的铁 【进士】 @回复

    讲解的很深入,可以给seo新手很大的帮助。

  15. 说彩网
    说彩网 【书童】 @回复

    了解基础概念非常有好处,网站要长期发展离不开有价值的内容(正确的废话)

  16. 电炖锅的那些事
    电炖锅的那些事 【书童】 @回复

    搞清楚概念有好处的。

  17. 橘子书
    橘子书 【丞相】 @回复

    [偷笑] 全部看不懂。

  18. 九哥
    九哥 【进士】 @回复

    SEO我还是个小白,关键词都没有几个 [泪] 还得好好研究啊!

  19. 网赚乎
    网赚乎 【举人】 @回复

    Zac的文章永远是那么的经典。

  20. 辩论吧
    辩论吧 【进士】 @回复

    做seo的话,这些基本的东西还是要清楚的

  21. 明月登楼的博客
    明月登楼的博客 【王爷】 @回复

    看到SEO这些名词我就“晕”菜了!真心被绕迷糊了!

  22. 万正远洋
    万正远洋 【书童】 @回复

    SEO永远都是一知半解的!还得加强学习呀!

  23. 珐琅珠宝首饰加工厂
    珐琅珠宝首饰加工厂 【小白】 @回复

    多谢分享,抓取和爬行终于搞清了

  24. 小苍老师
    小苍老师 【状元】 @回复

    终于清楚了!以前我还真的是有点不清不楚!特别是nofollow