本人新手,刚学 node.js, 用 x-ray 包 写了个爬虫,很多没有限制的网站都没问题,但是有一些连最基础的爬html 整个文件都爬不了, 返回的内容是:“ 探测出是一个robot,所以不返回实际内容”
html 里有这样的东西: <meta name="robots" content="INDEX,FOLLOW" /> 这是不是和 robots.txt 这个有关? 完全不懂啊
以下是robots.txt 里的内容:
User-agent: * Disallow: /app/ Disallow: /cgi-bin/ Disallow: /downloader/ Disallow: /errors/ Disallow: /includes/ Disallow: /lib/ Disallow: /pkginfo/ Disallow: /shell/ Disallow: /var/ Disallow: /customer/ Disallow: /checkout/ Disallow: /catalogsearch/ Disallow: /wishlist/ Disallow: /sendfriend/ Disallow: /catalog/quickview/ Disallow: /catalog/product_compare/
请教各位大神破解之法