本书从基本的爬虫原理开始讲解,通过介绍Pthyon编程语言与HTML基础知识引领读者入门,之后根据当前风起云涌的云计算、大数据热潮,重点讲述了云计算的相关内容及其在爬虫中的应用,进而介绍如何设计自己的爬虫应用。主要内容分为基础篇、中级篇、深入篇,基础篇包括Python编程基础、Web前端基础、HTML基础知识、基础爬虫设计、强化爬虫技术等。中级篇包括数据存储、动态网站抓取、协议分析、Scrapy爬虫框架分析及实战案例等。高级篇包括增量式爬虫、分布式爬虫、人性化爬虫等框架设计。
范传辉 网虫,Python开发者,参与开发了多项网络应用,在实际开发中积累了丰富的实战经验,并善于总结,贡献了多篇技术文章广受好评。研究兴趣是网络安全、爬虫技术、数据分析、驱动开发等技术。
目录
前言
基础篇
第1章回顾Python编程2
1.1安装Python2
1.1.1Windows上安装Python2
1.1.2Ubuntu上的Python3
1.2搭建开发环境4
1.2.1Eclipse+PyDev4
1.2.2PyCharm10
1.3IO编程11
1.3.1文件读写11
1.3.2操作文件和目录14
1.3.3序列化操作15
1.4进程和线程16
1.4.1多进程16
1.4.2多线程22
1.4.3协程25
1.4.4分布式进程27
1.5网络编程32
1.5.1TCP编程33
1.5.2UDP编程35
1.6小结36
第2章Web前端基础37
2.1W3C标准37
2.1.1HTML37
2.1.2CSS47
2.1.3JavaScript51
2.1.4XPath56
2.1.5JSON61
2.2HTTP标准61
2.2.1HTTP请求过程62
2.2.2HTTP状态码含义62
2.2.3HTTP头部信息63
2.2.4Cookie状态管理66
2.2.5HTTP请求方式66
2.3小结68
第3章初识网络爬虫69
3.1网络爬虫概述69
3.1.1网络爬虫及其应用69
3.1.2网络爬虫结构71
3.2HTTP请求的Python实现72
3.2.1urllib2/urllib实现72
3.2.2httplib/urllib实现76
3.2.3更人性化的Requests77
3.3小结82
第4章HTML解析大法83
4.1初识Firebug83
4.1.1安装Firebug84
4.1.2强大的功能84
4.2正则表达式95
4.2.1基本语法与使用96
4.2.2Python与正则102
4.3强大的BeautifulSoup108
4.3.1安装BeautifulSoup108
4.3.2BeautifulSoup的使用109
4.3.3lxml的XPath解析124
4.4小结126
第5章数据存储(无数据库版)127
5.1HTML正文抽取127
5.1.1存储为JSON127
5.1.2存储为CSV132
5.2多媒体文件抽取136
5.3Email提醒137
5.4小结138
第6章实战项目:基础爬虫139
6.1基础爬虫架构及运行流程140
6.2URL管理器141
6.3HTML下载器142
6.4HTML解析器143
6.5数据存储器145
6.6爬虫调度器146
6.7小结147
第7章实战项目:简单分布式爬虫148
7.1简单分布式爬虫结构148
7.2控制节点149
7.2.1URL管理器149
7.2.2数据存储器151
7.2.3控制调度器153
7.3爬虫节点155
7.3.1HTML下载器155
7.3.2HTML解析器156
7.3.3爬虫调度器157
7.4小结159
中级篇
第8章数据存储(数据库版)162
8.1SQLite162
8.1.1安装SQLite162
8.1.2SQL语法163
8.1.3SQLite增删改查168
8.1.4SQLite事务170
8.1.5Python操作SQLite171
8.2MySQL174
8.2.1安装MySQL174
8.2.2MySQL基础177
8.2.3Python操作MySQL181
8.3更适合爬虫的MongoDB183
8.3.1安装MongoDB184
8.3.2MongoDB基础187
8.3.3Python操作MongoDB194
8.4小结196
第9章动态网站抓取197
9.1Ajax和动态HTML197
9.2动态爬虫1:爬取影评信息198
9.3PhantomJS207
9.3.1安装PhantomJS207
9.3.2快速入门208
9.3.3屏幕捕获211
9.3.4网络监控213
9.3.5页面自动化214
9.3.6常用模块和方法215
9.4Selenium218
9.4.1安装Selenium219
9.4.2快速入门220
9.4.3元素选取221
9.4.4页面操作222
9.4.5等待225
9.5动态爬虫2:爬取去哪网227
9.6小结230
第10章Web端协议分析231
10.1网页登录POST分析231
10.1.1隐藏表单分析231
10.1.2加密数据分析234
10.2验证码问题246
10.2.1IP246
10.2.2Cookie登录249
10.2.3传统验证码识别250
10.2.4人工打码251
10.2.5滑动验证码252
10.3www>m>wap252
10.4小结254
第11章终端协议分析255
11.1PC客户端抓包分析255
11.1.1HTTP Analyzer简介255
11.1.2虾米音乐PC端API实战分析257
11.2App抓包分析259
11.2.1Wireshark简介259
11.2.2酷我听书App端API实战分析266
11.3API爬虫:爬取mp3资源信息268
11.4小结272
第12章初窥Scrapy爬虫框架273
12.1Scrapy爬虫架构273
12.2安装Scrapy275
12.3创建cnblogs项目276
12.4创建爬虫模块277
12.5选择器278
12.5.1Selector的用法278
12.5.2HTML解析实现280
12.6命令行工具282
12.7定义Item284
12.8翻页功能286
12.9构建Item Pipeline287
12.9.1定制Item Pipeline287
12.9.2激活Item Pipeline288
12.10内置数据存储288
12.11内置图片和文件下载方式289
12.12启动爬虫294
12.13强化爬虫297
12.13.1调试方法297
12.13.2异常299
12.13.3控制运行状态300
12.14小结301
第13章深入Scrapy爬虫框架302
13.1再看Spider302
13.2Item Loader308
13.2.1Item与Item Loader308
13.2.2输入与输出处理器309
13.2.3Item Loader Context310
13.2.4重用和扩展Item Loader311
13.2.5内置的处理器312
13.3再看Item Pipeline314
13.4请求与响应315
13.4.1Request对象315
13.4.2Response对象318
13.5下载器中间件320
13.5.1激活下载器中间件320
13.5.2编写下载器中间件321
13.6Spide
非常棒的书
当当买书还是值得可靠的,速度还可以
还不错。。
不错,在用了
刚收到,外包装我实在无力吐槽,收到后实在破烂不堪,我是个爱书的人,所以实在很难过,里边有薄膜包装,这一本保护的还算好吧
技术性强,而且比较新,需要一些Python基础,自己正在学习中
快递好评,书也不错
书的质量不错
原装,原装正版。快递非常的快。Python实战宝典噢。
很好,不好意思买的书多了,评价的时候疏漏了,非常好的书。
看上去不错,不过里面用的Python版本还是2.7的,现在都3.6了。据说Python3对很多库支持不好,所以还是2.7,我是初学的,也不太懂。关于爬虫的书很少,所以先用着看看吧
书不错,给力!
很好,很满意
快递实在他喵的太慢了
书很新,不错的项目实战
快递速度太太太慢了
质量应该可以吧,跳着看的,还没复现代码!
非常有帮助
。。 。 ?。。。。。。。
内容介绍的很基础,没有web基础的也可以看懂。