搜索引擎支持nofollow和noarchive。
禁止搜索引擎收录的方法
1.robots.txt文件是什么?使用搜索引擎蜘蛛程序自动访问互联网上的网页并获取网页信息。蜘蛛访问网站时,会先检查网站根域下是否有一个名为robots.txt的纯文本文件,用来指定蜘蛛在你网站上的爬行范围。您可以在网站中创建robots.txt,声明您不希望被搜索引擎包含的网站部分,或者指定搜索引擎只包含特定部分。
请注意,只有当您的网站包含您不想被搜索引擎包含的内容时,您才需要使用robots.txt文件。如果您希望搜索引擎包含网站上的所有内容,请不要创建robots.txt文件。
2.robot.txt文件在哪里?Robots.txt文件应该放在网站的根目录下。例如,当蜘蛛访问一个网站(如http://www.abc.com)时,它会首先检查网站中是否存在文件http://www.abc.com/robots.txt。如果蜘蛛发现了这个文件,它会根据这个文件的内容来决定自己的访问权限范围。
对应于网站网址的robots.txt的网址
http://www.w3.org/http://www.w3.org/robots.txt
http://www . w3 . org :80/http://www . w3 . org :80/robots . txt
http://www . w3 . org :1234/http://www . w3 . org :1234/robots . txt
http://w3.org/http://w3.org/robots.txt
3.我在robots.txt中设置了禁止搜索引擎和包含我的网站内容的禁令,为什么它仍然出现在搜索引擎和搜索结果中?如果其他网站链接到您的robots.txt文件中设置的禁止网页,这些网页可能仍然会出现在搜索引擎后面的搜索结果中,但您的网页内容不会被捕获、索引和显示,只有其他网站对您的相关网页的描述才会显示在搜索引擎和搜索结果中。
4.禁止搜索引擎跟踪网页的链接,只对网页进行索引。如果您不希望搜索引擎跟踪此网页上的链接,并且不传递链接的权重,请将此元标签放在网页的以下部分:
如果你不想让搜索引擎跟踪某个特定的链接,而搜索引擎也支持更精准的控制,请直接在链接上写下这个标记:登录。
要允许其他搜索引擎跟踪,但仅阻止搜索引擎链接到跟踪您的页面,请在页面的部分放置此元标签:
5.禁止搜索引擎在搜索结果中显示网页快照,只允许搜索引擎对网页进行索引。要防止所有搜索引擎显示您网站的快照,请将此元标签放在网页的以下部分:
要允许其他搜索引擎显示快照,但仅阻止搜索引擎显示快照,请使用以下标签:
注意:此标记仅禁止搜索引擎显示网页快照。搜索引擎将继续对网页进行索引,并在搜索结果中显示网页摘要。
6.我想禁止百度图片搜索包含一些图片。怎么设置?禁止Baiduspider抓取网站上的所有图片,或者禁止或允许Baiduspider抓取网站上一定格式的图片文件,都可以通过设置机器人来实现。请参考“机器人使用示例”中的示例10、11和12。
7.robots.txt文件的格式“robots.txt”文件包含一条或多条由空行分隔的记录(以Cr、Cr/NL和ORNL为终止符),每条记录的格式如下:“3360”
在这个文件中,可以使用#进行标注,具体使用方法与UNIX中相同。该文件中的记录通常以一行或多行用户代理开始,后面是几行不允许和允许。详情如下:
用户代理:
该项目的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,则意味着将有多个机器人受到“robots.txt”的限制。对于此文件,必须至少有一个用户代理记录。如果该键的值设置为*,它对任何机器人都有效。在“robots.txt”文件中,只能有一条类似“User-agent:*”的记录。如果在“robots.txt”文件中添加了“User- agent:SomeBot”和一些“不允许”和“允许”行,则“SomeBot”的名称仅受“User-agent:SomeBot”之后的“不允许”和“允许”行的限制
不允许:
该项的值用于描述一组不想被访问的网址。该值可以是完整的路径,也可以是路径的非空前缀,机器人将不会访问以“不允许”项的值开始的URL。例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html和/help /index.html,而“Disallow:/help/”允许机器人访问/help.html和/helpabc.html,但不允许访问/help/index.html,“disallow 3360”表示允许机器人访问网站的所有URL。“/robots.txt”文件中必须至少有一条禁止记录。如果“/robots.txt”不存在或为空文件,则该网站对所有搜索引擎机器人开放。
Allow:
该项的值用于描述一组想要被访问的网址。与“不允许”项类似,该值可以是完整的路径或路径的前缀。以允许项目的值开始的URL允许机器人访问。比如‘Allow :/hi Baidu’允许机器人访问/hibaidu.htm、/hibaiducom.html、/hi Baidu com . html,一个网站的所有URL默认都是allow,所以allow通常和allow一起使用,实现允许访问部分网页的同时禁止访问所有其他URL的功能。
使用' * '和' $ ':
Baiduspider支持使用通配符“*”和“$”来混淆匹配的URL。
“$”与行结束符匹配。
*”匹配0个或更多任意字符。
8.网址匹配示例允许或不允许值网址匹配结果
/tmp /tmp是
/tmp /tmp.html是
/tmp /tmp/a.html是
/tmp /tmp no
/tmp /tmphoho no
/Hello* /Hello.html是
/他*洛/你好,洛洛是的
/堆* lo/你好,lolo no
html$ /tmpa.html是
/a.html$ /a.html是
html $/a . html no
9.robots.txt文件1的使用示例。禁止所有搜索引擎访问网站的任何部分。
下载robots.txt文件用户代理: *
不允许: /
2.允许所有机器人进入
(也可以创建一个空文件'/robots.txt ')用户代理: *
Allow: /
3.只有Baiduspider被禁止访问您的网站用户代理: Baiduspider。
不允许: /
4.只有Baiduspider被允许访问您的网站用户代理: Baiduspider。
Allow: /
用户代理: *
不允许: /
例5。只有Baiduspider和Googlebot才允许访问User-agent: Baiduspider。
Allow: /
用户代理: Googlebot
Allow: /
用户代理: *
不允许: /
例6。防止蜘蛛访问特定目录
在这个例子中,网站有三个目录限制搜索引擎的访问,也就是说,机器人不会访问这三个目录。需要注意的是,每个目录必须单独声明,不能写成‘disallow :/CGI-bin//tmp/’User-agent : *
不允许: /cgi-bin/
不允许: /tmp/
不允许: /~joe/
例7。允许访问特定目录中的某些网址用户代理: *
allow :/CGI-bin/参见
Allow: /tmp/hi
allow :/~ Joe/快看
不允许: /cgi-bin/
不允许: /tmp/
不允许: /~joe/
8.使用“*”限制对url的访问
访问后缀为'的所有URL(包括子目录)。禁止在/cgi-bin/目录中使用“htm”。用户代理: *
Disallow: /cgi-bin/*。html文件的后缀
例9。使用“$”限制对url的访问
只有后缀为'的网址。允许“htm”访问。用户代理: *
Allow: /*。htm$
不允许: /
例10。禁止访问网站用户代理: *中的所有动态页面
不允许: /*?*
例11。Baiduspider禁止抓取网站上的所有图片。
只允许网页,不允许图片。用户代理: Baiduspider
不允许: /*。日元$
不允许: /*。jpeg$
不允许: /*。gif$
不允许: /*。png$
不允许: /*。bmp$
例12。Baiduspider只允许抓取网页和图片。gif格式。
允许捕获网页和gif格式的图片,但不允许捕获其他格式的图片。用户代理: Baiduspider
Allow: /*。gif$
不允许: /*。日元$
不允许: /*。jpeg$
不允许: /*。png$
不允许: /*。bmp$
例13。Baiduspider仅禁止在中抓取图片。jpg格式。用户代理: Baiduspider
不允许: /*。日元$
流年SEO成立于2012年,是国内较早一批专门从事网络营销、网站优化和网站建设,并将大数据、云计算、人工智能、SEO等技术应用于商业服务的企业。您可以联系我们,了解网站优化和网站建设需求。