电子工程师技术服务社区

公告

登录 | 注册

首页

已解决 73482 个问题
已帮助 5993 位优秀工程师

反爬虫机制是怎么样的

莱克迷KW 2021-08-12 浏览量：444

反爬虫机制是怎么样的

消费电子嵌入式其他

0 0 收起

我来回答

最佳答案

一笔之名也
检查每个 HTTP 请求的 headers 头部中 Referer 字段。它判断该字段是否为空
如果某个 IP 短时间高并发请求网站，该 IP 会立马被封
没有登录的情况下，程序只能连续访问 3 个 Url
- 发布于 2021-08-16
- 举报
- 评论 0
- 0
- 0

其他答案数量：1

xdsnet
对于遵守规范的爬虫来说，一个robots.txt文件，放置在网站根目录下即可。
对于不遵守规范的爬虫则需要额外的处理策略，比如单主机链接数量限制（在一定时间内，总数限制，爬虫可以在很短时间内产生巨量的链接），对user-agent 的判断（这个比较弱，很容易伪装跳过）、认证要求等等，其实最根本的还是限制爬虫快速访问造成其他用户体验不够好，所以核心还是限速，此外再就是防止额外信息泄漏。
不过防爬虫和增强用户体验需要均衡考虑的，这个是一个很复杂的问题啦。
- 发布于2021-08-13
- 举报
- 评论 0
- 0
- 0

相关问题

问题达人换一批

文章 知识经验换现金

换一批