• 已解决 73482 个问题
  • 已帮助 5993 位优秀工程师

反爬虫机制是怎么样的

莱克迷KW 2021-08-12 浏览量:444
反爬虫机制是怎么样的
0 0 收起

我来回答

上传资料:
选择文件 文件大小不超过15M(格式支持:doc、ppt、xls、pdf、zip、rar、txt)
最佳答案
  • 检查每个 HTTP 请求的 headers 头部中 Referer 字段。它判断该字段是否为空

    如果某个 IP 短时间高并发请求网站,该 IP 会立马被封

    没有登录的情况下,程序只能连续访问 3 个 Url

    • 发布于 2021-08-16
    • 举报
    • 评论 0
    • 0
    • 0

其他答案 数量:1
  • 对于遵守规范的爬虫来说,一个robots.txt文件,放置在网站根目录下即可。

    对于不遵守规范的爬虫则需要额外的处理策略,比如单主机链接数量限制(在一定时间内,总数限制,爬虫可以在很短时间内产生巨量的链接),对user-agent 的判断(这个比较弱,很容易伪装跳过)、认证要求等等,其实最根本的还是限制爬虫快速访问造成其他用户体验不够好,所以核心还是限速,此外再就是防止额外信息泄漏。

    不过防爬虫和增强用户体验需要均衡考虑的,这个是一个很复杂的问题啦。


    • 发布于2021-08-13
    • 举报
    • 评论 0
    • 0
    • 0

相关问题

问题达人换一批

反爬虫机制是怎么样的