爬虫之概念相关
声明
本教程仅供学习参考,请勿用在非法途径上,违者后果自负,与笔者无关。 –涂寐
爬虫过程
- 编程–>模拟上网–>抓取数据
爬虫性质
- 法律不禁止,使用有风险
爬虫风险
- 干扰网站正常运营
- 非法抓取网站数据
防进橘子
- 优化程序,避免干扰网站运营
- 审查爬取内容,避免敏感内容爬取
使用场景
- 通用爬虫:
- 抓取系统重要组成–>整个页面数据
- 聚焦爬虫:
- 通用爬虫基础上–>抓取特定数据
- 增量式爬虫:
抓取网站最近更新数据
爬虫利弊
- 网站希望获得更大知名度
- 网站害怕敏感数据被爬取
反爬机制
- 门户网站通过制定某些策略和技术来防止爬虫爬取网站数据
反反爬策略
- 爬虫程序通过制定某些策略和技术来绕过门户网站的反爬机制,进而爬取其中数据
robots.txt协议
- 规定该门户网站可爬取的数据范围
http协议
- 服务器与客户端进行数据交互的一种形式
常用请求头
- User-Agent:UA,请求方的身份标识
- Connection:请求完成后的连接状态
常用响应头
- Content-Type:服务器对客户端响应数据的类型
https协议
- http+SSL,安全的超文本传输协议
加密方式
- 对称密钥加密
- 非对称密钥加密
- 证书密钥加密
- 本文标题:爬虫之概念相关
- 本文作者:涂寐
- 创建时间:2021-12-06 23:17:29
- 本文链接:article/c2461216.html
- 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
评论