如何判断代理IP使用成功
当爬虫程序或采集软件配置代理之后,如何判断代理IP使用成功了呢?可以使用查询IP地址这类网站进行协助,例如使用代理IP去搜索百度IP或者访问https://www.ip138.com,这类网站会将HTTP请求的来源IP获取并通过HTTP内容返回,因此如果代理IP转发成功,目标网站返回的内容就应该是代理IP地址。一般会有下面几种情况:
1、代理直接转发
只要将返回的IP地址复制进入百度IP或者https://www.ip138.com进行检查,如果是爬虫服务器的IP地址表示代理IP转发失败,否则就表示代理IP转发成功。
2、代理多次转发
查询IP地址网站返回的内容,既不是爬虫服务器的IP地址,也不是爬虫程序或采集软件直接使用的代理IP地址,而是经过代理IP多次转发后,最后请求IP地址网站的代理IP地址。
3、代理自动转发
部分代理IP产品,会根据爬虫程序或采集软件的每个HTTP请求,自动分配不同的代理IP进行转发,出现每一次查询获取的IP地址都不一样,这样就能在数据采集的过程中,突破目标网站的IP限制行为。要注意这其中又会出现更复杂的情况是,部分IP查询网站会按照cookie等信息直接缓存返回内容,即使代理IP每次请求都会转发不同IP,这类IP查询网站也会返回重复的IP地址,造成代理IP自动转发失败的假象,下面提供demo 示例如下:
#! -*- encoding:utf-8 -*-
import urllib2
import random
import httplib
class HTTPSConnection(httplib.HTTPSConnection):
def set_tunnel(self, host, port=None, headers=None):
httplib.HTTPSConnection.set_tunnel(self, host, port, headers)
if hasattr(self, 'proxy_tunnel'):
self._tunnel_headers['Proxy-Tunnel'] = self.proxy_tunnel
class HTTPSHandler(urllib2.HTTPSHandler):
def https_open(self, req):
return urllib2.HTTPSHandler.do_open(self, HTTPSConnection, req, context=self._context)
# 要访问的目标页面
targetUrlList = [
"https://httpbin.org/ip",
"https://httpbin.org/headers",
"https://httpbin.org/user-agent",
]
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host": proxyHost,
"port": proxyPort,
"user": proxyUser,
"pass": proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http": proxyMeta,
"https": proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1, 10000)
headers = {"Proxy-Tunnel": str(tunnel)}
HTTPSConnection.proxy_tunnel = tunnel
proxy = urllib2.ProxyHandler(proxies)
opener = urllib2.build_opener(proxy, HTTPSHandler)
urllib2.install_opener(opener)
# 访问三次网站,使用相同的tunnel标志,均能够保持相同的外网IP
for i in range(3):
for url in targetUrlList:
r = urllib2.Request(url)
print(urllib2.urlopen(r).read())
如何判断代理IP使用成功
xiaotaomi
会员积分:6520
当爬虫程序或采集软件配置代理之后,如何判断代理IP使用成功了呢?可以使用查询IP地址这类网站进行协助,例如使用代理IP去搜索百度IP或者访问https://www.ip138.com,这类网站会将HTTP请求的来源IP获取并通过HTTP内容返回,因此如果代理IP转发成功,目标网站返回的内容就应该是代理IP地址。一般会有下面几种情况:
1、代理直接转发
只要将返回的IP地址复制进入百度IP或者https://www.ip138.com进行检查,如果是爬虫服务器的IP地址表示代理IP转发失败,否则就表示代理IP转发成功。
2、代理多次转发
查询IP地址网站返回的内容,既不是爬虫服务器的IP地址,也不是爬虫程序或采集软件直接使用的代理IP地址,而是经过代理IP多次转发后,最后请求IP地址网站的代理IP地址。
3、代理自动转发
部分代理IP产品,会根据爬虫程序或采集软件的每个HTTP请求,自动分配不同的代理IP进行转发,出现每一次查询获取的IP地址都不一样,这样就能在数据采集的过程中,突破目标网站的IP限制行为。要注意这其中又会出现更复杂的情况是,部分IP查询网站会按照cookie等信息直接缓存返回内容,即使代理IP每次请求都会转发不同IP,这类IP查询网站也会返回重复的IP地址,造成代理IP自动转发失败的假象,下面提供demo 示例如下:
#! -*- encoding:utf-8 -*-
import urllib2
import random
import httplib
class HTTPSConnection(httplib.HTTPSConnection):
def set_tunnel(self, host, port=None, headers=None):
httplib.HTTPSConnection.set_tunnel(self, host, port, headers)
if hasattr(self, 'proxy_tunnel'):
self._tunnel_headers['Proxy-Tunnel'] = self.proxy_tunnel
class HTTPSHandler(urllib2.HTTPSHandler):
def https_open(self, req):
return urllib2.HTTPSHandler.do_open(self, HTTPSConnection, req, context=self._context)
# 要访问的目标页面
targetUrlList = [
"https://httpbin.org/ip",
"https://httpbin.org/headers",
"https://httpbin.org/user-agent",
]
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host": proxyHost,
"port": proxyPort,
"user": proxyUser,
"pass": proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http": proxyMeta,
"https": proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1, 10000)
headers = {"Proxy-Tunnel": str(tunnel)}
HTTPSConnection.proxy_tunnel = tunnel
proxy = urllib2.ProxyHandler(proxies)
opener = urllib2.build_opener(proxy, HTTPSHandler)
urllib2.install_opener(opener)
# 访问三次网站,使用相同的tunnel标志,均能够保持相同的外网IP
for i in range(3):
for url in targetUrlList:
r = urllib2.Request(url)
print(urllib2.urlopen(r).read())
21-01-19 16:07
759
0
回复
暂无评论