爬虫相关

什么爬虫

爬虫是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程

哪些语言可以实现爬虫

  • java: 代码较为臃肿,重构成本较大

  • python:语法简单,模块框架加成

爬虫分类

  • 通用爬虫:通用爬虫是搜索引擎(Baidu, Google等) "抓取系统"的重要组成部分。将互联网上的网页下载到本地,形成一个互联网内容的镜像备份,再对这些网页做相关处理(提取关键字,去掉广告),最后提供一个用户检索接口

  • 聚焦爬虫:根据指定需求抓取网络上指定的数据

robot.txt协议

口头协议,门户网站指定哪些页面可以爬取,哪些不能爬取,学习阶段可忽略,淘宝/robots.txt

反爬虫

门户网站通过相应的策略和技术手段,防止爬虫程序进行网站数据的爬取

反反爬虫

爬虫程序通过相应的策略和技术手段,破解门户网站的反爬虫手段,从而爬取到相应的数据

Last updated