python的简单采集过程

首页 > 论坛 > 内容

python的简单采集过程

xiaotaomi

21-03-11 17:40 👁1595

首先，对于对于一个正常人获取网页内容，只需要3个步骤，(1)打开浏览器，输入URL，打开源网页

(2)选取我们想要的内容(3)存储到硬盘中。这三个过程，应用到技术层面上，其实就是：网络请求，抓取结构化数据，数据存储。我们使用Python写一个简单的程序，实现上面的简单抓取功能。

#! -*- encoding:utf-8 -*-

import requests

import random

# 要访问的目标页面

targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面

# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)

proxyHost = "t.16yun.cn"

proxyPort = "31111"

# 代理验证信息

proxyUser = "username"

proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {

"host" : proxyHost,

"port" : proxyPort,

"user" : proxyUser,

"pass" : proxyPass, }

# 设置 http和https访问都是用HTTP代理

proxies = { "http" : proxyMeta,

"https" : proxyMeta, }

# 设置IP切换头

tunnel = random.randint(1,10000)

headers = {"Proxy-Tunnel": str(tunnel)}

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code

print resp.text

这就是一个简单的爬虫入门的基础程序。实现一个采集过程，也是上面的几个基础步骤。但是实现一个强大的采集过程，你会遇到一些限制。比如：

1、一定时间内单个IP访问次数，一个正常用户访问网站，不会在一段持续时间内过快访问一个，持续时间也不会太长。针对这个限制我们可以采用大量高匿代理IP形成一个代理池，随机从代理池中选择优质代理ip，模拟访问。

2、账号的访问次数也是有限制的，如果一个正常账号一直在访问一个数据接口就会被当做机器人了，所以我们可以采用大量正常账号进行访问就可以了。

只要ip限制和账号限制搞定了，就解决了大部分阻碍了，其他的问题可以根据网站的限制采集反爬策略的升级。

python的简单采集过程

xiaotaomi

会员积分：6520

首先，对于对于一个正常人获取网页内容，只需要3个步骤，(1)打开浏览器，输入URL，打开源网页

#! -*- encoding:utf-8 -*-

import requests

import random

# 要访问的目标页面

targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面

# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)

proxyHost = "t.16yun.cn"

proxyPort = "31111"

# 代理验证信息

proxyUser = "username"

proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {

"host" : proxyHost,

"port" : proxyPort,

"user" : proxyUser,

"pass" : proxyPass, }

# 设置 http和https访问都是用HTTP代理

proxies = { "http" : proxyMeta,

"https" : proxyMeta, }

# 设置IP切换头

tunnel = random.randint(1,10000)

headers = {"Proxy-Tunnel": str(tunnel)}

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code

print resp.text

这就是一个简单的爬虫入门的基础程序。实现一个采集过程，也是上面的几个基础步骤。但是实现一个强大的采集过程，你会遇到一些限制。比如：

只要ip限制和账号限制搞定了，就解决了大部分阻碍了，其他的问题可以根据网站的限制采集反爬策略的升级。

21-03-11 17:40

1595

暂无评论

*论坛内容来自网络，不代表本网观点，发现侵权请联系客服删除！