python的简单采集过程
首先,对于对于一个正常人获取网页内容,只需要3个步骤,(1)打开浏览器,输入URL,打开源网页
(2)选取我们想要的内容(3)存储到硬盘中。这三个过程,应用到技术层面上,其实就是:网络请求,抓取结构化数据,数据存储。我们使用Python写一个简单的程序,实现上面的简单抓取功能。
#! -*- encoding:utf-8 -*-
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass, }
# 设置 http和https访问都是用HTTP代理
proxies = { "http" : proxyMeta,
"https" : proxyMeta, }
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
这就是一个简单的爬虫入门的基础程序。实现一个采集过程,也是上面的几个基础步骤。但是实现一个强大的采集过程,你会遇到一些限制。比如:
1、一定时间内单个IP访问次数,一个正常用户访问网站,不会在一段持续时间内过快访问一个,持续时间也不会太长。针对这个限制我们可以采用大量高匿代理IP形成一个代理池,随机从代理池中选择优质代理ip,模拟访问。
2、账号的访问次数也是有限制的,如果一个正常账号一直在访问一个数据接口就会被当做机器人了,所以我们可以采用大量正常账号进行访问就可以了。
只要ip限制和账号限制搞定了,就解决了大部分阻碍了,其他的问题可以根据网站的限制采集反爬策略的升级。
python的简单采集过程
xiaotaomi
会员积分:6520
首先,对于对于一个正常人获取网页内容,只需要3个步骤,(1)打开浏览器,输入URL,打开源网页
(2)选取我们想要的内容(3)存储到硬盘中。这三个过程,应用到技术层面上,其实就是:网络请求,抓取结构化数据,数据存储。我们使用Python写一个简单的程序,实现上面的简单抓取功能。
#! -*- encoding:utf-8 -*-
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass, }
# 设置 http和https访问都是用HTTP代理
proxies = { "http" : proxyMeta,
"https" : proxyMeta, }
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
这就是一个简单的爬虫入门的基础程序。实现一个采集过程,也是上面的几个基础步骤。但是实现一个强大的采集过程,你会遇到一些限制。比如:
1、一定时间内单个IP访问次数,一个正常用户访问网站,不会在一段持续时间内过快访问一个,持续时间也不会太长。针对这个限制我们可以采用大量高匿代理IP形成一个代理池,随机从代理池中选择优质代理ip,模拟访问。
2、账号的访问次数也是有限制的,如果一个正常账号一直在访问一个数据接口就会被当做机器人了,所以我们可以采用大量正常账号进行访问就可以了。
只要ip限制和账号限制搞定了,就解决了大部分阻碍了,其他的问题可以根据网站的限制采集反爬策略的升级。
21-03-11 17:40
1595
0
回复
暂无评论