Python网络爬虫开发从入门到精通(第2版)

编号:: wx1203536471

销售价:: ￥74.76; (市场价: ~~￥89.00~~)

赠送积分:: 75

数量:: 件

商品介绍
商品参数
商品评论
商品咨询

商品介绍

学爬虫、抓数据、提内容、存数据、懂反爬、学框架、用A1、会部署、重实战……

本书共分4篇，针对Python爬虫初学者，从零开始系统地讲解了如何利用Python进行网络爬虫程序开发。第1篇快速入门篇（第1~9章）：本篇主要介绍了Python环境的搭建和一些Python的基础语法知识、Python爬虫入门知识及基本的使用方法、Ajax数据的分析和抓取、动态渲染页面数据的爬取、网站代理的设置与使用、验证码的识别与破解，以及App数据抓取、数据的存储方法等内容。第2篇技能进阶篇（第10~12章）：本篇主要介绍了PySpider和Scrapy两个常用爬虫框架的基本使用方法、爬虫的部署方法，以及数据分析、数据清洗常用库的使用方法。第3篇项目实战篇（第13章）：本篇以2个综合实战项目，详细地讲解了Python数据爬虫开始与实战应用。本篇对全书内容进行了总结回顾，强化读者的实操水平。第4篇技能拓展篇（第14章）：本篇从数据爬取、数据清洗和数据分析三个角度，介绍了一常用AI技术的实用技巧。运用这些技巧，读者可以提高网络爬虫程序的编写速度和数据分析效率。本书案例丰富，注重实战，既适合Python程序员和爬虫爱好者阅读学习，也适合作为广大职业院校相关专业的教学用书。

刘延林
知名论坛Python爬虫专题管理员，擅长Python爬虫技术，并对Python数据分析与挖掘有深入研究。在CSDN等多个知名博客网站发表多篇技术文章，深受读者的喜爱。
徐清徽
曾供职于国内头部智能销售企业和跨境电商企业，对Python Web技术、爬虫和大数据技术均有涉猎，深度参与日均百亿级数据量的爬虫系统和大数据系统研发。

第1篇快速入门篇

第1章Python基础

1.1Python环境搭建

1.1.1Windows下Python环境的安装

1.1.2Linux下Python环境的安装

1.1.3macOS下Python环境的安装

1.1.4IDE开发工具介绍

1.2Python入门

1.2.1第一个Python程序

1.2.2Python注释

1.2.3数据类型和变量

1.2.4字符串和编码

1.2.5列表

1.2.6元组

1.2.7字典

1.2.8集合

1.2.9条件语句

1.2.10循环语句

1.2.11函数

1.2.12类

1.2.13推导式

1.2.14赋值表达式

1.3新手实训

实训一：使用for循环实现九九乘法表

实训二：判断闰年

实训三：计算二次方程

1.4新手问答

本章小结

第2章Python爬虫入门39

2.1爬虫的分类

2.1.1通用网络爬虫

2.1.2聚焦网络爬虫

2.1.3增量式网络爬虫

2.1.4深层网络爬虫

2.2爬虫的基本结构及工作流程

2.3爬虫策略

2.3.1深度优先遍历策略

2.3.2宽度优先遍历策略

2.3.3大站优先策略

2.3.4最佳优先搜索策略

2.4HTTP基本原理

2.4.1URI和URL介绍

2.4.2超文本

2.4.3HTTP和HTTPS

2.4.4HTTP请求过程

2.5网页基础

2.5.1网页的组成

2.5.2网页的结构

2.6Session和Cookie

2.6.1Session和Cookie的工作原理

2.6.2Session和Cookie的区别

2.6.3常见误区

2.7新手实训

实训一：编写网页

实训二：在网页中插入标签

2.8新手问答

本章小结

第3章基本库的使用

3.1urllib

3.1.1urlopen()

3.1.2简单抓取网页

3.1.3设置请求超时

3.1.4使用data参数提交数据

3.1.5Request

3.1.6简单使用Request

3.1.7Request高级用法

3.1.8使用代理

3.1.9认证登录

3.1.10Cookie设置

3.1.11HTTPResponse

3.1.12错误解析

3.2requests

3.2.1requests库的安装

3.2.2requests库的使用方法介绍

3.2.3requests.get()

3.2.4requests库的异常

3.2.5request.head(）

3.2.6requests.post()

3.2.7requests.put()和requests.patch()

3.3re正则使用

3.3.1re.match()

3.3.2re.search()

3.3.3re.match()与re.search()的区别

3.3.4检索和替换

3.3.5re.compile()

3.3.6findall()

3.4XPath

3.4.1XPath的使用方法

3.4.2利用实例讲解XPath的使用

3.4.3获取所有节点

3.4.4获取子节点

3.4.5获取文本信息

3.4.6通过谷歌浏览器获取XPath表达式

3.5BeautifulSoup

3.5.1BeautifulSoup模块的安装

3.5.2定位节点

3.5.3提取数据

3.6新手实训

实训一：requests库爬取豆瓣电影Top250页面

实训二：百度搜索关键字提交

3.7新手问答

本章小结

第4章Ajax数据抓取

4.1Ajax简介

4.1.1实例引入

4.1.2Ajax的基本原理

4.1.3Ajax方法分析

4.2使用Python模拟Ajax请求数据

4.2.1分析请求

4.2.2分析响应结果

4.2.3编写代码模拟抓取

4.3新手实训

实训一：分析猎聘网的xhr请求并编写代码模拟抓取数据

实训二：分析南方航空官网的机票查询xhr请求抓取数据

4.4新手问答

本章小结

第5章动态渲染页面爬取

5.1Selenium的使用

5.1.1安装Selenium库

5.1.2Selenium定位方法

5.1.3控制浏览器操作

5.1.4WebDriver常用方法

5.1.5鼠标事件和键盘事件

5.1.6获取断言信息

5.1.7设置元素等待

5.1.8多表单切换

5.1.9下拉框选择

5.1.10调用JavaScript代码

5.1.11窗口截图

5.1.12无头浏览模式

5.2Playwright的基本使用

5.2.1Playwright的安装

5.2.2Playwright定位方法

5.2.3Playwright交互方法

5.3新手实训

实训一：模拟登录豆瓣

实训二：使用Playwright模拟百度搜索

5.4新手问答

本章小结

第6章代理的设置与使用

6.1代理设置

6.1.1urllib代理设置

6.1.2requests代理设置

6.1.3Selenium代理设置

6.1.4Playwright代理设置

6.2代理池构建

6.2.1获取IP

6.2.2验证代理是否可用

6.2.3使用代理池

6.3付费代理的使用

6.3.1讯代理的使用

6.3.2快代理的使用

6.4自建代理IP服务

6.4.1ADSL拨号原理

6.4.2购买VPS主机

6.4.3测试拨号

6.4.4HTTP协议代理搭建与测试

6.4.5Socks协议代理搭建与测试

6.4.6使用Python实现拨号

6.5新手问答

本章小结

第7章验证码的识别与破解

7.1普通图形验证码识别

7.1.1Python OCR识别库的安装

7.1.2使用OCR识别简单的图形验证码

7.1.3数值计算型的验证码破解

7.2滑动验证码原理

7.2.1普通滑动验证码

7.2.2带缺口的滑块验证码

7.3其他常见验证码介绍

7.4新手问答

本章小结

第8章App数据抓取

8.1Fiddler的基本使用

8.1.1Fiddler设置

8.1.2手机端设置

8.1.3抓取今日头条App请求包

8.2Charles基本使用

8.2.1Charles安装

8.2.2证书设置

8.2.3手机端配置

8.2.4抓包

8.2.5分析

8.2.6重发

8.3Appium基本使用

8.3.1Appium安装

8.3.2启动App

8.3.3appPackage和appActivity参数的获取方法

8.3.4Python代码驱动App

8.3.5常用API方法

8.4新手问答

本章小结

第9章数据存储

9.1文件存储

9.1.1TEXT文件存储

9.1.2JSON文件存储

9.1.3CSV文件存储

9.1.4Excel文件存储

9.2数据库存储

9.2.1MySQL存储

9.2.2MongoDB存储

9.2.3Redis存储

9.2.4PostgreSQL存储

9.3新手实训

实训一：爬取云代理IP并保存到Redis数据库中

实训二：爬取简书文章列表数据保存到MySQL数据库中

9.4新手问答

本章小结

第2篇技能进阶篇

第10章常用爬虫框架

10.1PySpider框架

10.1.1安装PySpider

10.1.2PySpider的基本功能

10.1.3PySpider架构

10.1.4第一个PySpider爬虫

10.1.5保存数据到MySQL数据库

10.2Scrapy框架

10.2.1安装Scrapy

10.2.2创建项目

10.2.3定义Item

10.2.4编写第一个爬虫（Spider）

10.2.5运行爬取

10.2.6提取Item

10.2.7在Shell中尝试Selector选择器

10.2.8提取数据

10.2.9使用Item

10.2.10Item Pipeline

10.2.11将Item写入JSON文件

10.2.12保存数据到数据库

10.3Scrapy-Splash的使用

10.3.1新建项目

10.3.2配置

10.3.3编写爬虫

10.3.4运行爬虫

10.4新手实训

实训一：使用Scrapy爬取四川麻辣社区提取标签内容.

实训二：使用PySpider爬取IMDb电影资料信息

10.5新手问答

本章小结

第11章部署爬虫

11.1Linux系统下安装Python3

11.1.1安装Python3

11.1.2安装virtualenv

11.2Docker的使用

11.2.1DockerHelloWorld

11.2.2运行交互式的容器

11.2.3启动容器（后台模式）

11.2.4停止容器

11.3Docker安装Python

11.3.1docker pull python:3.5

11.3.2通过Dockerfile构建

11.3.3使用python镜像

11.4Docker安装MySQL

本章小结

第12章数据分析与可视化

12.1NumPy的使用

12.1.1NumPy安装

12.1.2NumPy ndarray对象

12.1.3NumPy数据类型

12.1.4数组属性

12.1.5NumPy创建数组

12.1.6NumPy切片和索引

12.1.7数组的运算

12.1.8NumPy Matplotlib

12.2Pandas的使用

12.2.1从CSV文件中读取数据

12.2.2向CSV文件中写入数据

12.2.3Pandas数据帧

12.2.4Pandas函数应用

12.2.5Pandas排序

12.2.6Pandas聚合

12.2.7Pandas可视化

12.3pyecharts的使用

12.3.1绘制第一个图表

12.3.2使用主题

12.3.3使用pyecharts-snapshot插件

12.3.4图形绘制过程

12.3.5多次显示图表

12.3.6Pandas或Numpy简单示例

12.4新手问答

本章小结

第3篇项目实战篇

第13章Python爬虫项目实战

13.1实战一：requests爬取房天下二手房数据

13.1.1抓包分析

13.1.2编写爬虫代码

13.1.3分析二手房小区分布

13.1.4实例总结

13.2实战二：Scrapy爬取电商网站产品数据

13.2.1抓包分析

13.2.2编写爬虫代码

13.2.3分析新品价格区间分布情况

13.2.4实例总结

本章小结

第4篇技能拓展篇

第14章巧用AI工具辅助数据爬取与分析

14.1熟悉常用AI工具

14.1.1快速上手文心一言

14.1.2快速上手豆包

14.2AI工具助力爬虫技术

14.2.1快速学习爬虫知识

14.2.2辅助编写爬虫代码

14.2.3辅助数据处理与可视化分析

14.3案例实战：利用AI工具快速爬取与分析豆瓣电影数据

14.3.1利用豆包AI工具辅助编写爬虫代码

14.3.2利用豆包AI工具辅助数据分析与可视化

本章小结

商品参数

基本信息
出版社	北京大学出版社
ISBN	9787301359495
条码	9787301359495
编者	刘延林,徐清徽编
译者	--
出版年月	2025-03-01 00:00:00.0
开本	16开
装帧	平装
页数	360
字数	542000
版次	2
印次	1
纸张	一般胶版纸

商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]