暂无商品咨询信息 [发表商品咨询]
学爬虫、抓数据、提内容、存数据、懂反爬、学框架、用A1、会部署、重实战……
本书共分4篇,针对Python爬虫初学者,从零开始系统地讲解了如何利用Python进行网络爬虫程序开发。第1篇快速入门篇(第1~9章):本篇主要介绍了Python环境的搭建和一些Python的基础语法知识、Python爬虫入门知识及基本的使用方法、Ajax数据的分析和抓取、动态渲染页面数据的爬取、网站代理的设置与使用、验证码的识别与破解,以及App数据抓取、数据的存储方法等内容。第2篇技能进阶篇(第10~12章):本篇主要介绍了PySpider和Scrapy两个常用爬虫框架的基本使用方法、爬虫的部署方法,以及数据分析、数据清洗常用库的使用方法。第3篇项目实战篇(第13章):本篇以2个综合实战项目,详细地讲解了Python数据爬虫开始与实战应用。本篇对全书内容进行了总结回顾,强化读者的实操水平。第4篇技能拓展篇(第14章):本篇从数据爬取、数据清洗和数据分析三个角度,介绍了一常用AI技术的实用技巧。运用这些技巧,读者可以提高网络爬虫程序的编写速度和数据分析效率。本书案例丰富,注重实战,既适合Python程序员和爬虫爱好者阅读学习,也适合作为广大职业院校相关专业的教学用书。
刘延林
知名论坛Python爬虫专题管理员,擅长Python爬虫技术,并对Python数据分析与挖掘有深入研究。在CSDN等多个知名博客网站发表多篇技术文章,深受读者的喜爱。
徐清徽
曾供职于国内头部智能销售企业和跨境电商企业,对Python Web技术、爬虫和大数据技术均有涉猎,深度参与日均百亿级数据量的爬虫系统和大数据系统研发。
第1篇快速入门篇
第1章Python基础
1.1Python环境搭建
1.1.1Windows下Python环境的安装
1.1.2Linux下Python环境的安装
1.1.3macOS下Python环境的安装
1.1.4IDE开发工具介绍
1.2Python入门
1.2.1第一个Python程序
1.2.2Python注释
1.2.3数据类型和变量
1.2.4字符串和编码
1.2.5列表
1.2.6元组
1.2.7字典
1.2.8集合
1.2.9条件语句
1.2.10循环语句
1.2.11函数
1.2.12类
1.2.13推导式
1.2.14赋值表达式
1.3新手实训
实训一:使用for循环实现九九乘法表
实训二:判断闰年
实训三:计算二次方程
1.4新手问答
本章小结
第2章Python爬虫入门39
2.1爬虫的分类
2.1.1通用网络爬虫
2.1.2聚焦网络爬虫
2.1.3增量式网络爬虫
2.1.4深层网络爬虫
2.2爬虫的基本结构及工作流程
2.3爬虫策略
2.3.1深度优先遍历策略
2.3.2宽度优先遍历策略
2.3.3大站优先策略
2.3.4最佳优先搜索策略
2.4HTTP基本原理
2.4.1URI和URL介绍
2.4.2超文本
2.4.3HTTP和HTTPS
2.4.4HTTP请求过程
2.5网页基础
2.5.1网页的组成
2.5.2网页的结构
2.6Session和Cookie
2.6.1Session和Cookie的工作原理
2.6.2Session和Cookie的区别
2.6.3常见误区
2.7新手实训
实训一:编写网页
实训二:在网页中插入标签
2.8新手问答
本章小结
第3章基本库的使用
3.1urllib
3.1.1urlopen()
3.1.2简单抓取网页
3.1.3设置请求超时
3.1.4使用data参数提交数据
3.1.5Request
3.1.6简单使用Request
3.1.7Request高级用法
3.1.8使用代理
3.1.9认证登录
3.1.10Cookie设置
3.1.11HTTPResponse
3.1.12错误解析
3.2requests
3.2.1requests库的安装
3.2.2requests库的使用方法介绍
3.2.3requests.get()
3.2.4requests库的异常
3.2.5request.head()
3.2.6requests.post()
3.2.7requests.put()和requests.patch()
3.3re正则使用
3.3.1re.match()
3.3.2re.search()
3.3.3re.match()与re.search()的区别
3.3.4检索和替换
3.3.5re.compile()
3.3.6findall()
3.4XPath
3.4.1XPath的使用方法
3.4.2利用实例讲解XPath的使用
3.4.3获取所有节点
3.4.4获取子节点
3.4.5获取文本信息
3.4.6通过谷歌浏览器获取XPath表达式
3.5BeautifulSoup
3.5.1BeautifulSoup模块的安装
3.5.2定位节点
3.5.3提取数据
3.6新手实训
实训一:requests库爬取豆瓣电影Top250页面
实训二:百度搜索关键字提交
3.7新手问答
本章小结
第4章Ajax数据抓取
4.1Ajax简介
4.1.1实例引入
4.1.2Ajax的基本原理
4.1.3Ajax方法分析
4.2使用Python模拟Ajax请求数据
4.2.1分析请求
4.2.2分析响应结果
4.2.3编写代码模拟抓取
4.3新手实训
实训一:分析猎聘网的xhr请求并编写代码模拟抓取数据
实训二:分析南方航空官网的机票查询xhr请求抓取数据
4.4新手问答
本章小结
第5章动态渲染页面爬取
5.1Selenium的使用
5.1.1安装Selenium库
5.1.2Selenium定位方法
5.1.3控制浏览器操作
5.1.4WebDriver常用方法
5.1.5鼠标事件和键盘事件
5.1.6获取断言信息
5.1.7设置元素等待
5.1.8多表单切换
5.1.9下拉框选择
5.1.10调用JavaScript代码
5.1.11窗口截图
5.1.12无头浏览模式
5.2Playwright的基本使用
5.2.1Playwright的安装
5.2.2Playwright定位方法
5.2.3Playwright交互方法
5.3新手实训
实训一:模拟登录豆瓣
实训二:使用Playwright模拟百度搜索
5.4新手问答
本章小结
第6章代理的设置与使用
6.1代理设置
6.1.1urllib代理设置
6.1.2requests代理设置
6.1.3Selenium代理设置
6.1.4Playwright代理设置
6.2代理池构建
6.2.1获取IP
6.2.2验证代理是否可用
6.2.3使用代理池
6.3付费代理的使用
6.3.1讯代理的使用
6.3.2快代理的使用
6.4自建代理IP服务
6.4.1ADSL拨号原理
6.4.2购买VPS主机
6.4.3测试拨号
6.4.4HTTP协议代理搭建与测试
6.4.5Socks协议代理搭建与测试
6.4.6使用Python实现拨号
6.5新手问答
本章小结
第7章验证码的识别与破解
7.1普通图形验证码识别
7.1.1Python OCR识别库的安装
7.1.2使用OCR识别简单的图形验证码
7.1.3数值计算型的验证码破解
7.2滑动验证码原理
7.2.1普通滑动验证码
7.2.2带缺口的滑块验证码
7.3其他常见验证码介绍
7.4新手问答
本章小结
第8章App数据抓取
8.1Fiddler的基本使用
8.1.1Fiddler设置
8.1.2手机端设置
8.1.3抓取今日头条App请求包
8.2Charles基本使用
8.2.1Charles安装
8.2.2证书设置
8.2.3手机端配置
8.2.4抓包
8.2.5分析
8.2.6重发
8.3Appium基本使用
8.3.1Appium安装
8.3.2启动App
8.3.3appPackage和appActivity参数的获取方法
8.3.4Python代码驱动App
8.3.5常用API方法
8.4新手问答
本章小结
第9章数据存储
9.1文件存储
9.1.1TEXT文件存储
9.1.2JSON文件存储
9.1.3CSV文件存储
9.1.4Excel文件存储
9.2数据库存储
9.2.1MySQL存储
9.2.2MongoDB存储
9.2.3Redis存储
9.2.4PostgreSQL存储
9.3新手实训
实训一:爬取云代理IP并保存到Redis数据库中
实训二:爬取简书文章列表数据保存到MySQL数据库中
9.4新手问答
本章小结
第2篇技能进阶篇
第10章常用爬虫框架
10.1PySpider框架
10.1.1安装PySpider
10.1.2PySpider的基本功能
10.1.3PySpider架构
10.1.4第一个PySpider爬虫
10.1.5保存数据到MySQL数据库
10.2Scrapy框架
10.2.1安装Scrapy
10.2.2创建项目
10.2.3定义Item
10.2.4编写第一个爬虫(Spider)
10.2.5运行爬取
10.2.6提取Item
10.2.7在Shell中尝试Selector选择器
10.2.8提取数据
10.2.9使用Item
10.2.10Item Pipeline
10.2.11将Item写入JSON文件
10.2.12保存数据到数据库
10.3Scrapy-Splash的使用
10.3.1新建项目
10.3.2配置
10.3.3编写爬虫
10.3.4运行爬虫
10.4新手实训
实训一:使用Scrapy爬取四川麻辣社区提取标签内容.
实训二:使用PySpider爬取IMDb电影资料信息
10.5新手问答
本章小结
第11章部署爬虫
11.1Linux系统下安装Python3
11.1.1安装Python3
11.1.2安装virtualenv
11.2Docker的使用
11.2.1DockerHelloWorld
11.2.2运行交互式的容器
11.2.3启动容器(后台模式)
11.2.4停止容器
11.3Docker安装Python
11.3.1docker pull python:3.5
11.3.2通过Dockerfile构建
11.3.3使用python镜像
11.4Docker安装MySQL
本章小结
第12章数据分析与可视化
12.1NumPy的使用
12.1.1NumPy安装
12.1.2NumPy ndarray对象
12.1.3NumPy数据类型
12.1.4数组属性
12.1.5NumPy创建数组
12.1.6NumPy切片和索引
12.1.7数组的运算
12.1.8NumPy Matplotlib
12.2Pandas的使用
12.2.1从CSV文件中读取数据
12.2.2向CSV文件中写入数据
12.2.3Pandas数据帧
12.2.4Pandas函数应用
12.2.5Pandas排序
12.2.6Pandas聚合
12.2.7Pandas可视化
12.3pyecharts的使用
12.3.1绘制第一个图表
12.3.2使用主题
12.3.3使用pyecharts-snapshot插件
12.3.4图形绘制过程
12.3.5多次显示图表
12.3.6Pandas或Numpy简单示例
12.4新手问答
本章小结
第3篇项目实战篇
第13章Python爬虫项目实战
13.1实战一:requests爬取房天下二手房数据
13.1.1抓包分析
13.1.2编写爬虫代码
13.1.3分析二手房小区分布
13.1.4实例总结
13.2实战二:Scrapy爬取电商网站产品数据
13.2.1抓包分析
13.2.2编写爬虫代码
13.2.3分析新品价格区间分布情况
13.2.4实例总结
本章小结
第4篇技能拓展篇
第14章巧用AI工具辅助数据爬取与分析
14.1熟悉常用AI工具
14.1.1快速上手文心一言
14.1.2快速上手豆包
14.2AI工具助力爬虫技术
14.2.1快速学习爬虫知识
14.2.2辅助编写爬虫代码
14.2.3辅助数据处理与可视化分析
14.3案例实战:利用AI工具快速爬取与分析豆瓣电影数据
14.3.1利用豆包AI工具辅助编写爬虫代码
14.3.2利用豆包AI工具辅助数据分析与可视化
本章小结
基本信息 | |
---|---|
出版社 | 北京大学出版社 |
ISBN | 9787301359495 |
条码 | 9787301359495 |
编者 | 刘延林,徐清徽 编 |
译者 | -- |
出版年月 | 2025-03-01 00:00:00.0 |
开本 | 16开 |
装帧 | 平装 |
页数 | 360 |
字数 | 542000 |
版次 | 2 |
印次 | 1 |
纸张 | 一般胶版纸 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]