数字营销人员和 SEO 专家知道搜索引擎索引是多么重要。这就是为什么他们尽最大努力帮助谷歌和百度正确地抓取和索引他们的站点,在页内和页外优化上投入时间和资源,比如内容、链接、标签、元描述、图像优化、网站结构等等。
但是不可否认高级网站优化是搜索引擎成功收录的基础,去忽略搜索引擎的优化技术可能会让你的网站对搜索引擎提不去兴趣。如果你从未听说过 robots.txt
、meta robots
标签、sitmap.xml
、microformats
和 X-Robot
标签,你可能需要重视一下了。
不过你之前不曾听说也没关系。接下来在本文中我将解释如何使用和设置 robots.txt
和 meta robots
标签。
什么是 robots.txt
robots.txt
是一个文本文件,用于指导搜索引擎机器人(也称为爬虫、机器人或爬行器)如何爬行和索引网站页面。理想情况下,robots.txt
文件被放置在网站的顶层目录中,这样机器人就可以立即访问它的指令。为了将命令传递给不同类型的搜索爬虫,robots.txt
文件必须遵循 Robots exclusion protocol (REP) 中的特定标准。REP 创建于 1994 年,之后在 1996 年、1997 年和 2005 年进行了大量扩展。
robots.txt
文件一直在逐步改进,以支持特定的爬虫程序指令、uri 模式扩展、索引器指令(也称为 REP 标记或 robots 元标记)和微格式 rel= nofollow
。
因为 robots.txt
文件为搜索机器人提供了如何爬行或不爬行网站的这个或那个部分的指示,知道如何使用和设置这些文件是非常重要的。如果 robots.txt
文件设置不正确,可能会导致多个索引错误。所以,每次你开始一个新的搜索引擎优化运动,检查你的 robots.txt
文件与谷歌和百度的机器人短信工具。
请记住,如果你一切设置正确,robots.txt
文件将加快搜索引擎的索引过程。
robots.txt 文件需要隐藏什么
robots.txt
文件可用于从搜索中排除某些目录、类别和页面。为此使用 disallow
指令。下面是一些应该使用 robots.txt
文件隐藏的页面:
- 有重复内容的页面
- 分页页面
- 动态的产品和服务页面
- 帐户相关页面
- 管理相关页面
- 购物车相关页面
- 聊天相关页面
- Thinks-You 页面
这里举一个例子,一般情况下会是如下的形式:
在上面的示例中,我指示 Google robot
避免爬行和索引所有与用户帐户、购物车和多个动态页面相关的页面,这些动态页面是在用户在搜索栏中查找产品或按价格排序时生成的。当然,不要忘记任何 robots.txt
文件在 web 页面上都是公开的,要访问 robots.txt
文件,只需键入:
|
|
这种可用性意味着您不能保护或隐藏其中的任何数据。此外,坏的机器人和恶意的爬虫程序可以利用 robots.txt
文件,将其用作导航最有价值的 web 页面的详细地图。另外,请记住 robots.txt
命令实际上是指令。这意味着搜索机器人可以爬行和索引您的站点,即使您指示它们不要这样做。好消息是,大多数搜索引擎(如 Google、Bing、Yahoo 和 Yandex)都遵循 robots.txt
指令。
robots.txt
文件肯定有缺点。尽管如此,我强烈建议您将它们作为每个 SEO 活动的一个组成部分。Google 识别并尊重 robots.txt
指令,在大多数情况下,有 Google 收录就足够了。
怎么去使用 robots.txt 文件
robots.txt
文件非常灵活,可以以多种方式使用。然而,它们的主要好处是使 SEO 专家能够一次允许或不允许多个页面,而不必逐个访问每个页面的代码。
例如,您可以从内容中屏蔽所有搜索爬虫程序。像这样:
|
|
或者隐藏站点的目录结构和特定类别,如下所示:
|
|
从搜索中排除多个页面也很有用。只需解析您想要隐藏的 url,以躲避搜索爬虫。然后,在 robots.txt
中添加 disallow
,列出 url,这些页面将会对 Google、百度、 Yahoo 等搜索引擎不再可见。
然而,更重要的是 robots.txt
文件允许您对某些页面、类别、甚至 CSS 和 JS 代码进行优先级排序。看看下面的例子:
网站设置 robots 的 Allow 和 Disallow 示例
在这里,我们不允许使用 WordPress 页面和特定的类别,但是允许使用 wp-content 文件、JS 插件、CSS 样式和 blog 目录。这种方法保证爬行器能够爬行并直接索引有用的代码和类别。更重要的是 robots.txt
文件中可以指定站点地图 sitmap.xml
的路径。它应该放在 User-agent、Disallow、Allow 和 Host 命令之后像这样:
网站设置 robots、Disallow、Host、Sitmap 的示例
您还可以手动将 robots.txt
文件添加到谷歌搜索控制台,如果您的目标是 Bing,还可以使用 Bing 网站管理员工具。这是一种更安全的方法,因为这样做可以保护您的内容不被竞争对手网站的网站管理员复制。尽管 robots.txt
的结构和设置非常简单,但是一个正确的设置文件可以决定 SEO 的成败。设置的过程中一定要小心,因为很容易错误地禁用您的整个站点。
什么是 meta robots 标签
Meta robots 标签(REP标签)是索引器指令的元素,它告诉搜索引擎爬行器如何爬行和索引您网站上的特定页面。它们使 SEO 专业人员能够针对单个页面,并指导爬行器遵循什么和不遵循什么。
怎么使用 meta robots 标签
meta robots
标签使用起来非常简单。只有四个主要的 REP 标签:
- Follow
- Index
- Nofollow
- Noindex
设置 meta robots
标签不需要太多时间。通过四个简单的步骤,您可以将您的网站索引过程提升一个层次:
- 按CTRL + U进入一个页面的代码。
- 复制并粘贴页面代码的
<head>
部分到一个单独的文档中。 - 为使用此文档的开发人员提供循序渐进的指南。重点关注如何、在哪里以及将哪些元机器人标记注入代码。
- 检查以确保开发人员正确地实现了标记。我建议使用 Screaming Frog SEO Spider 工具去检测。
下面的屏幕截图演示了 meta robots
标签的样子(请看第一行代码)
meta robots
标签被主要的搜索引擎识别: Google、Bing、Yahoo 和 Yandex。您不必为每个搜索引擎或浏览器调整代码(除非它们支持特定的标记)。
核心的 meta robots 标签参数
如上所述,有四个主要的REP标记参数: follow、index、nofollow 和 noindex。下面介绍如何使用它们:
- index,follow:允许搜索机器人索引页面并跟踪其链接
- noindex,nofollow: 防止搜索机器人索引页面并跟踪其链接
- index,nofollow:允许搜索引擎索引页面,但对搜索蜘蛛隐藏其链接
- noindex,follow:从搜索中排除一个页面,但允许跟踪它的链接(链接果汁有助于增加 SERPs)
REP 标签参数不多,下面是一些不常使用的:
- none
- noarchive
- nosnippet
- unavailabe_after
- noimageindex
- nocache
- noodp
- notranslate
如果您需要优化特定的页面,meta robots
标签是必不可少的。只要访问代码并指导开发人员该做什么。如果您的站点运行在高级 CMS (OpenCart、PrestaShop)或使用特定的插件(如 WP Yoast),您还可以直接将meta标记及其参数注入页面模板。这允许您一次覆盖多个页面,而无需向开发人员求助。
设置 robots.txt 和 meta Robots 标签的基本规则
知道如何设置和使用 robots.txt
文件和 meta robots
标记是非常重要的。一个小错误就能毁掉你的整个网站 SEO 优化。我个人认识几个数字营销人员,他们花了几个月的时间做 SEO,却发现他们的网站被 robots.txt
的索引功能关闭了。还有一些人滥用了 nofollow 标签,以至于他们失去了大量的反向链接。
处理 robots.txt
文件和 REP 标记非常具有技术性,这可能会导致许多错误。幸运的是,有几个基本规则可以帮助您成功地实现它们。
robots.txt 文件
- 将
robots.txt
文件放在网站代码的顶级目录中,以简化爬行和索引。 - 正确地构造
robots.txt
,如下所示: User-agent -> Disallow -> Allow -> Host -> Sitemap。这样,搜索引擎蜘蛛就可以按适当的顺序访问类别和web页面。 - 确保您设置的 Allow 和 Disallow 每个URL都放在单独的行上。如果在一行中出现多个url,爬虫程序将无法访问它们。
- 使用小写字母命名
robots.txt
,文件名区分大小写。 - 不要用空格分隔查询参数,例如: “/cars/ /audi/”。
- 除了
*
和$
之外,不要使用任何特殊字符。其他字符无法识别。 - 为不同的子域创建单独的
robots.txt
文件。例如,hubspot.com 和 blog.hubspot.com 具有具有目录和页面特定指令的单独文件。 - 使用
#
在robots.txt
文件中留下注释。爬行器不支持#
字符的行。 - 出于安全目的,不要依赖
robots.txt
。使用密码和其他安全机制来保护您的站点免受黑客攻击、抓取和数据欺诈。
meta robots 标签
- 是大小写敏感的。谷歌和其他搜索引擎可以识别大写和小写的属性、值和参数,如果需要,还可以在这两者之间切换。我强烈建议您坚持使用一个选项来提高代码可读性。
- 避免多个
<meta>
标签。这样做可以避免代码中的冲突。在<meta>
标记中使用多个值。例如:<meta name=“robots” content=“noindex, nofollow”>
。 - 不要使用冲突的元标记来避免索引错误。例如,如果您有几个带有 meta 标记的代码行,比如
<meta name=“robots” content=“follow”>
和<meta name=“robots” content=“nofollow”>
,则只考虑nofollow。这是因为机器人把限制值放在首位。
如果您允许在 robots.txt
文件中索引特定的页面,但是不小心没有在 <meta>
中索引它,spider 将不会索引该页面。另外,请记住:如果您想给谷歌提供特定的指令,请使用 <meta>
googlebot 而不是robots。例如: <meta name=“googlebot” content=“nofollow”>
。它类似于机器人,但避免了所有其他搜索爬虫。
总结
搜索引擎优化不仅仅是关于关键词、链接和内容。SEO 的技术部分也很重要。事实上,它可以为你的整个数字营销活动带来不同。因此,要尽快学习如何正确使用和设置 robots.txt
文件和 meta robots
标签。我希望我在本文中描述的实践和建议能够指导您顺利地完成这个过程。