什么及如何建立一个Robots.txt文件?
为获得在某一搜索引擎中的排名,您根据其排名规律,精心设计某一页面,使其符合得很好,登记后也获得理想的排名。
由于各搜索引擎排名规则各异,您的某一页面能获得某一搜索引擎中的好的排名,但通常情况下,对于其他搜索引擎,排名就差得很远。
为此,有人在站点中复制出内容相同的不同文件名的页面,并对复制页面的原标记进行修改,以期符合其他搜索引擎排名规则。
然而,许多搜索引擎一旦发现您站点中有异常“克隆”页面,会给予惩罚,不收录您的页面。
Robots.txt就是为了解决这问题。
我们给出样本:
User-agent:
Disallow:
譬如,如果您想告诉Excite搜索引擎的Spider(ArchitextSpider),不检索您站点中三个特定页面,您可这样操作:
User-agent: ArchitextSpider
Disallow: /orderform.html
Disallow: /product1.html
Disallow: /product2.html
如果您不想让Excite的Spider检索在abc目录下的def.htm文件:
User-agent: ArchitextSpider
Disallow: /abc/def.htm
不检索整个mydirectory目录:
User-agent: ArchitextSpider
Disallow: /mydirectory/
不让所有Spider检索:
User-agent: *
不检索整个站点:
Disallow: /
我们给出其他实例:
User-agent: ArchitextSpider
Disallow: /abc/def.htm
User-agent: Infoseek
Disallow: /ghi/jkl.htm
User-agent: ArchitextSpider
User-agent: Infoseek
Disallow: /abc/def.htm
Disallow: /ghi/jkl.htm

home
Sitemap