爬虫相关

什么爬虫

爬虫是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程

哪些语言可以实现爬虫

java: 代码较为臃肿，重构成本较大
python：语法简单，模块框架加成

爬虫分类

通用爬虫：通用爬虫是搜索引擎(Baidu, Google等) "抓取系统"的重要组成部分。将互联网上的网页下载到本地，形成一个互联网内容的镜像备份，再对这些网页做相关处理(提取关键字，去掉广告)，最后提供一个用户检索接口
聚焦爬虫：根据指定需求抓取网络上指定的数据

robot.txt协议

口头协议，门户网站指定哪些页面可以爬取，哪些不能爬取，学习阶段可忽略，淘宝/robots.txt

反爬虫

门户网站通过相应的策略和技术手段，防止爬虫程序进行网站数据的爬取

反反爬虫

爬虫程序通过相应的策略和技术手段，破解门户网站的反爬虫手段，从而爬取到相应的数据

Previous03 创建一个django项目 NextJupyter Notebook

Last updated 6 years ago