详解python中urllib爬虫模块-创新互联

小编这次要给大家分享的是详解python中urllib爬虫模块，文章内容丰富，感兴趣的小伙伴可以来了解一下，希望大家阅读完这篇文章之后能够有所收获。

创新互联建站成立于2013年，我们提供高端网站建设公司、重庆网站制作、成都网站设计、网站定制、成都全网营销推广、微信小程序、微信公众号开发、seo优化排名服务，提供专业营销思路、内容策划、视觉设计、程序开发来完成项目落地，为成都假山制作企业提供源源不断的流量和订单咨询。

前言

网络爬虫也称为网络蜘蛛、网络机器人，抓取网络的数据。其实就是用Python程序模仿人点击浏览器并访问网站，而且模仿的越逼真越好。一般爬取数据的目的主要是用来做数据分析，或者公司项目做数据测试，公司业务所需数据。

而数据来源可以来自于公司内部数据，第三方平台购买的数据，还可以通过网络爬虫爬取数据。python在网络爬虫方向上有着成熟的请求、解析模块，以及强大的Scrapy网络爬虫框架。

爬虫分类

1、通用网络爬虫：搜索引擎使用，遵守robots协议（君子协议）

robots协议：网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

2、聚焦网络爬虫：自己写的爬虫程序

爬虫爬取数据步骤

确定需要爬取的URL地址
由请求模块向URL地址发出请求，并得到网站的响应
从响应内容中提取所需数据
- 所需数据，保存
- 页面中有其他需要继续跟进的URL地址，继续第2步去发请求，如此循环

请求模块

from urllib import request

request.urlopen()　　向网站发起请求并获取响应对象

参数：

URL：需要爬取的URL地址

timeout: 设置等待超时时间，指定时间内未得到响应抛出超时异常

响应对象（response）方法

string = response.read().decode('utf-8') 获取响应对象内容(网页源代码)，返回内容为字节串bytes类型，顺便需要decode转换成string。
url = response.geturl() 返回实际数据的URL地址
code = response.getcode() 返回HTTP响应码

from urllib import request
url = 'http://www.baidu.com/'

# 向百度发请求,得到响应对象
response = request.urlopen(url)

# 返回网页源代码
print(response.read().decode('utf-8'))

# 返回http响应码
print(response.getcode())    # 200
# 返回实际数据URL地址
print(response.geturl())    # http://www.baidu.com/

网站标题：详解python中urllib爬虫模块-创新互联
文章来源：http://jkwzsj.com/article/dgigco.html

详解python中urllib爬虫模块-创新互联

其他资讯