爬虫学习之人口数据的采集
最近,备受瞩目的第七次人口普查数据公布了,数据显示全国总人口141178万人,与2010年相比,增加了7206万人,增长5.38%,从数据中可以看出中国人口占世界人口的18%,我们仍然是世界第一人口大国。从普查数据中还可以看出人口结构稳定,但也出现了结构性的问题,年龄结构两升一降,老龄化依然是比较突出的数据。我们都知道老龄化是一个全球性问题。人口老龄化的趋势大体上是不可倒转的,因此对于我们国家来说这是一个比较大且长期的基本国情。
关于我们国家历年的人口数据来源,我们可以从“国家统计局”网站中获取。这是一个由国家统计局提供的网站,里面有很多国家公开的数据信息。今天我们学习下使用python进行历年人口数据的分析。我们主要是这三方面进行数据的采集,总人口、增长率、人口结构。不过像采集这样的网站数据必须要挂上代理,这里我们使用的是亿牛云爬虫代理动态转发模式的,史上最简单方便的代理模式。
完整代码如下:
#! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "www.stats.gov.cn" # 要访问的目标HTTPS页面 # targetUrl = "https://www.stats.gov.cn" # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
爬虫学习之人口数据的采集
xiaotaomi
会员积分:6520
最近,备受瞩目的第七次人口普查数据公布了,数据显示全国总人口141178万人,与2010年相比,增加了7206万人,增长5.38%,从数据中可以看出中国人口占世界人口的18%,我们仍然是世界第一人口大国。从普查数据中还可以看出人口结构稳定,但也出现了结构性的问题,年龄结构两升一降,老龄化依然是比较突出的数据。我们都知道老龄化是一个全球性问题。人口老龄化的趋势大体上是不可倒转的,因此对于我们国家来说这是一个比较大且长期的基本国情。
关于我们国家历年的人口数据来源,我们可以从“国家统计局”网站中获取。这是一个由国家统计局提供的网站,里面有很多国家公开的数据信息。今天我们学习下使用python进行历年人口数据的分析。我们主要是这三方面进行数据的采集,总人口、增长率、人口结构。不过像采集这样的网站数据必须要挂上代理,这里我们使用的是亿牛云爬虫代理动态转发模式的,史上最简单方便的代理模式。
完整代码如下:
#! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "www.stats.gov.cn" # 要访问的目标HTTPS页面 # targetUrl = "https://www.stats.gov.cn" # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
21-05-14 16:18
1452
0
回复
暂无评论