网站根目录可以放一个robots.txt,那么遵守这个约定的搜索引擎,就会先判断这个文件,这个网站哪些内容是可以检索的,哪些是不可以的。
所以我们可以把自己正在测试的、或者隐私的加在robots.txt里,不让搜索引擎看到。
robots.txt也和白名单、黑名单有相似之处。比如:
1 2 3 4 5 6 7 8 9 | # # robots.txt for Discuz! X2 # User-agent: * Disallow: /api/ Disallow: /data/ Disallow: /source/ Disallow: /install/ |
这就是黑名单,这些目录是不允许蜘蛛采集的。
也可以写成白名单,allow,允许某些目录,其他目录都不允许。