爬虫相关
什么爬虫
爬虫是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程
哪些语言可以实现爬虫
java: 代码较为臃肿,重构成本较大
python:语法简单,模块框架加成
爬虫分类
通用爬虫:通用爬虫是搜索引擎(Baidu, Google等) "抓取系统"的重要组成部分。将互联网上的网页下载到本地,形成一个互联网内容的镜像备份,再对这些网页做相关处理(提取关键字,去掉广告),最后提供一个用户检索接口
聚焦爬虫:根据指定需求抓取网络上指定的数据
robot.txt协议
口头协议,门户网站指定哪些页面可以爬取,哪些不能爬取,学习阶段可忽略,淘宝/robots.txt
反爬虫
门户网站通过相应的策略和技术手段,防止爬虫程序进行网站数据的爬取
反反爬虫
爬虫程序通过相应的策略和技术手段,破解门户网站的反爬虫手段,从而爬取到相应的数据
Last updated