Python网络爬虫快速入门(微课版新世纪高职高专大数据技术专业系列规划教材)
定 价:48.8 元
- 作者:耿倩,白国政编
- 出版时间:2021/11/1
- ISBN:9787568534567
- 出 版 社:大连理工大学出版社
- 中图法分类:TP311.561
- 页码:223
- 纸张:
- 版次:1
- 开本:16开
本教材从初学者的角度出发,由浅入深地讲解了学习网络爬虫的基础知识,以及爬虫采集技术、信息提取技术等的基本使用方法,以帮助读者掌握爬虫的相关技能,使其能够独立编写自己的爬虫项目。本教材在内容安排上,充分考虑了知识体系的完整性和独立性,涵盖了Web页面及相关技术,爬取和解析网页数据的相关技术,以及数据存储技术等内容。
第1部分 基础概念
第l章 爬虫基础和开发环境的配置
1.1 爬虫产生的背景和概念
1.1.1 爬虫产生的背景
1.1.2 爬虫的概念
1.2 爬虫的用途和分类
1.2.1 爬虫的用途
1.2.2 爬虫的分类
1.3 爬虫实现原理
1.3.1 通用爬虫工作原理
1.3.2 聚焦爬虫工作原理
1.4 爬虫爬取网页信息的主要流程
1.5 防爬虫应对策略
1.6 爬虫数据采集与挖掘的合规性
1.7 开发环境的配置
1.7.1 在Windows上安装Python
1.7.2 PyCharm的安装与使用
习题
第2章 网页前端基础
2.1 URL(统一资源定位符)
2.1.1 协议头
2.1.2 服务器地址和端口
2.1.3 文件路径
2.2 超文本
2.3 HTTP与HTTPS
2.3.1 HTTP
2 3 2 HTTPS
2.4 HTTP网络请求原理
2.4.1 浏览器显示网页过程
2.4.2 客户端HTTP请求格式
2.4.3 服务器HTTP相应格式
2.5 Robots协议
2.5.1 Robots协议的内涵
2.5.2 经典robots.txt例子
2.6 网页基础
2.6.1 HTML语言规范
2.6.2 CSS简述
2.6.3 节点树及节点间的关系
2.7 Cookie与Session
2.7.1 Cookie
2.7.2 Sessiml
习 题
案例1 爬虫合法吗
第2部分 网络库
第3章 网络库urllib
3.1 发送请求与获得响应
3.1.1 用urlopen函数发送HTTP GET请求
3.1.2 用urIopen函数发送HTTP POST请求
3.1.3 请求超时
3.1.4 设置HTTP请求头
3.1.5 使用代理
3.1.6 读取和设置Cookie
3.2 异常处理
3.3 解析链接
3.3.1 urlparse与urlunparse
3.3.2 urlsplit和urlunsplit
3.3.3 urljoin
3.3.4 urlencode
3.3.5 quote与unquote
3.3.6 parse_qs与parse_qsl
3.4 解析robots.txt文件
3.5 阶段案例
习题
第4章 网络库requests
4.1 基本用法
4.1.1 requests的GET.请求
4.1.2 添加HTTP请求头
4.1.3 抓取二进制数据
4.1.4 POST请求
4.1.5 响应数据
4.2 高级应用
4.2.1 处理Cookie
4.2.2 使用同一会话(Session)
4.2.3 使用代理
4.2.4 超时
4.2.5 请求打包
4.3 阶段案例
习题
案例2 大众点评诉百度案
第3部分 解析库
第5章 正则表达式
5.1 了解正则表达式
5.1.1 原子
5.1.2 元字符
5.2 re库概述
5.2.1 match()方法和group()方法
5.2.2 search()方法
5.2.3 findall()方法和finditer()方法
5.2.4 sub()方法和subn()方法
5.2.5 split()方法
5.3 使用正则表达式抓取数据
5.3.1 抓取标签间的内容
5.3.2 抓取标签中的参数
5.3.3 字符串处理及替换
5.4 阶段案例
习题
第6章 XPath和lxml解析库
6.1 lxml基础
6.1.1 安装Ixml
6.1.2 操作XML
6.1.3 操作HTML
6.1.4 操作字符串
6.2 XPath语法
6.3 lxml库的基本使用
6.3.1 选取所有节点
6.3.2 选取子节点
6.3.3 属性匹配与获取
6.3.4 选取父节点
6.3.5 多属性匹配
6.3.6 按序选择节点
6.3.7 在Chrome中自动获得XPath代码
6.4 阶段案例
习题
第7章 解析库BeautifulSoup4
7.1 BeautifulSoup4概述
7.1.1 BeautifulSoup4的安装
7.1.2 选择解析器
7.2 BeautifulSoup对象
7.2.1 使用BeautifuiSoup解析HTML代码
7.2.2 节点选择器
7.3 方法和CSS选择器
7.3.1 方法选择器
7.3.2 CSS选择器
7.4 阶段案例
习题
第8章 多线程爬虫
8.1 进程和线程
8.1.1 进程
8.1.2 线程
8.2 Python与线程
8.2.1 使用单线程执行程序
8.2.2 使用多线程执行程序
8.2.3 为线程函数传递参数
8.2.4 线程和锁
8.3 高级线程模块(threading)
8.3.1 Thread类与线程函数
8:3.2 Thread类与线程对象
8.3.3 从Thread类继承
8.3.4 线程同步
8.3.5 生产者一消费者问题与queue模块
8.4 多进程
8.4.1 创建子进程
8.4.2 将进程定义为类
8.4.3 创建多个进程
8.5 阶段案例
习题
案例3 头条前高管反噬被判刑
第4部分 数据存储
第9章 文件存储
9.1 操作文件
9.1.1 读文件和写文件
9.1.2 读行和写行
9.1.3 使用Filelnput对象读取文件
9.2 读写XML文件
9.2.1 读取与搜索XML文件
9.2.2 字典转换为XML字符串
9.2.3 XML字符串转换为字典
9.3 读写JSON文件
9.3.1 JSON字符串与字典互相转换
9.3.2 将JSON字符串转换为XML字符串
9.3.3 将JSON数据转存到文件中
9.3.4 从文件中读取JSON
9.4 读写CSV文件
9.4.1 写入CSV文件
9.4.