爬虫之概念相关
涂寐 Lv5

声明

本教程仅供学习参考,请勿用在非法途径上,违者后果自负,与笔者无关。 –涂寐

爬虫过程

  • 编程–>模拟上网–>抓取数据

爬虫性质

  • 法律不禁止,使用有风险

爬虫风险

  • 干扰网站正常运营
  • 非法抓取网站数据

防进橘子

  • 优化程序,避免干扰网站运营
  • 审查爬取内容,避免敏感内容爬取

使用场景

  • 通用爬虫:
    • 抓取系统重要组成–>整个页面数据
  • 聚焦爬虫:
    • 通用爬虫基础上–>抓取特定数据
  • 增量式爬虫:
    抓取网站最近更新数据

爬虫利弊

  • 网站希望获得更大知名度
  • 网站害怕敏感数据被爬取

反爬机制

  • 门户网站通过制定某些策略和技术来防止爬虫爬取网站数据

反反爬策略

  • 爬虫程序通过制定某些策略和技术来绕过门户网站的反爬机制,进而爬取其中数据

robots.txt协议

  • 规定该门户网站可爬取的数据范围

http协议

  • 服务器与客户端进行数据交互的一种形式

常用请求头

  • User-Agent:UA,请求方的身份标识
  • Connection:请求完成后的连接状态

常用响应头

  • Content-Type:服务器对客户端响应数据的类型

https协议

  • http+SSL,安全的超文本传输协议

加密方式

  • 对称密钥加密
  • 非对称密钥加密
  • 证书密钥加密
 评论