检查每个 HTTP 请求的 headers 头部中 Referer 字段。它判断该字段是否为空
如果某个 IP 短时间高并发请求网站,该 IP 会立马被封
没有登录的情况下,程序只能连续访问 3 个 Url
对于遵守规范的爬虫来说,一个robots.txt文件,放置在网站根目录下即可。
对于不遵守规范的爬虫则需要额外的处理策略,比如单主机链接数量限制(在一定时间内,总数限制,爬虫可以在很短时间内产生巨量的链接),对user-agent 的判断(这个比较弱,很容易伪装跳过)、认证要求等等,其实最根本的还是限制爬虫快速访问造成其他用户体验不够好,所以核心还是限速,此外再就是防止额外信息泄漏。
不过防爬虫和增强用户体验需要均衡考虑的,这个是一个很复杂的问题啦。