爬虫之概念相关 | 涂寐's Blogs

爬虫之概念相关

涂寐 Lv5

2021-12-06 23:17:29 2021-12-06 23:17 2021-12-28 11:02:10

Python

爬虫

声明

本教程仅供学习参考，请勿用在非法途径上，违者后果自负，与笔者无关。 –涂寐

爬虫过程

编程–>模拟上网–>抓取数据

爬虫性质

法律不禁止，使用有风险

爬虫风险

干扰网站正常运营
非法抓取网站数据

防进橘子

优化程序，避免干扰网站运营
审查爬取内容，避免敏感内容爬取

使用场景

通用爬虫:
- 抓取系统重要组成–>整个页面数据
聚焦爬虫:
- 通用爬虫基础上–>抓取特定数据
增量式爬虫:
抓取网站最近更新数据

爬虫利弊

网站希望获得更大知名度
网站害怕敏感数据被爬取

反爬机制

门户网站通过制定某些策略和技术来防止爬虫爬取网站数据

反反爬策略

爬虫程序通过制定某些策略和技术来绕过门户网站的反爬机制，进而爬取其中数据

robots.txt协议

规定该门户网站可爬取的数据范围

http协议

服务器与客户端进行数据交互的一种形式

常用请求头

User-Agent：UA，请求方的身份标识
Connection：请求完成后的连接状态

常用响应头

Content-Type：服务器对客户端响应数据的类型

https协议

http+SSL，安全的超文本传输协议

加密方式

对称密钥加密
非对称密钥加密
证书密钥加密

本文标题：爬虫之概念相关
本文作者：涂寐
创建时间：2021-12-06 23:17:29
本文链接：article/c2461216.html
版权声明：本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！

#爬虫

评论

1. 声明
2. 爬虫过程
3. 爬虫性质
4. 爬虫风险
5. 防进橘子
6. 使用场景
7. 爬虫利弊
8. 反爬机制
9. 反反爬策略
10. robots.txt协议
11. http协议
12. 常用请求头
13. 常用响应头
14. https协议
15. 加密方式