当前位置: 首页 > news >正文

用正则表达式打造免费代理IP池

爬虫的过程中,当对方服务器发现你屡次爬取它,可能会遇到被封IP的苦痛,这时IP就应该换啦,打造IP池的意义十分重要,提供免费IP网站有很多,本次用的是西刺代理IP

# -*- coding: utf-8 -*-
"""
Created on Fri May 11 09:02:12 2018@author: JJ
"""
import urllib.request
import re
def get_proxy(n):url = 'http://www.xicidaili.com/nn/{}'.format(n)headers = ('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')opener = urllib.request.build_opener()opener.addheaders = [headers]urllib.request.install_opener(opener)html = opener.open(url).read().decode('utf8')ip_port_list = re.findall(r'<tr class(.*?)</tr>',html,re.S)proxy_list = []for i in ip_port_list:ip = re.findall(r'\d+\.\d+\.\d+\.\d+',i)[0]port = re.findall(r'<td>(\d+)</td>',i)[0]proxy = '{}:{}'.format(ip,port)proxy_list.append(proxy)print(proxy_list)if __name__=='__main__':get_proxy(1)

这段代码是爬取第一页,仅仅做个示范,大家可以在下面写个for循环,多爬几页也是可以的,来看看输出结果:

接下来来看看刚才做的IP池能不能用,或者说效率怎么样。测试网站http://httpbin.org/ip,话不多说上代码:

# -*- coding: utf-8 -*-
"""
Created on Fri May 11 09:02:12 2018@author: JJ
"""
import urllib.request
import re
import time
import random
def get_proxy(n):url = 'http://www.xicidaili.com/nn/{}'.format(n)headers = ('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')opener = urllib.request.build_opener()opener.addheaders = [headers]urllib.request.install_opener(opener)html = opener.open(url).read().decode('utf8')ip_port_list = re.findall(r'<tr class(.*?)</tr>',html,re.S)proxy_list = []for i in ip_port_list:ip = re.findall(r'\d+\.\d+\.\d+\.\d+',i)[0]port = re.findall(r'<td>(\d+)</td>',i)[0]proxy = '{}:{}'.format(ip,port)proxy_list.append(proxy)return proxy_listdef proxy_read(proxy_list,i):proxy = proxy_list[i]print('当前IP为:{}'.format(proxy))sleep_time = random.randint(1,3)print('等待{}秒'.format(sleep_time))time.sleep(sleep_time)print('开始测试')proxy_jj = urllib.request.ProxyHandler({'http':proxy})opener = urllib.reequest.build_opener(proxy_jj,urllib.request.HTTPHandler)urllib.request.install_opener(opener)try:html = urllib.request.urlopen('http://httpbin.org/ip')rhtml = html.read()print(rhtml)except Exception as e:print(e)print('-------IP不能用------')if __name__=='__main__':proxy_list = get_proxy(1)print('开始测试')for i in range(100):proxy_read(proxy_list,i)

结果如上图,总得来说,代码很简单,好啦,end啦,下一篇文章‘用xpath打造免费IP池‘。敬请期待

http://www.lryc.cn/news/344719.html

相关文章:

  • 【每日刷题】Day35
  • Python数据清洗与可视化实践:国际旅游收入数据分析
  • 前置知识储备
  • 六月品牌互动营销方案的作用是什么
  • dummy_worker C++ 预占用部分比例cpu资源,人为创造cpu资源紧张
  • 电脑缺失opencl.dll怎么办,轻松解决opencl.dll的多种方法分享
  • el-select 点击按钮滚动到选择框顶部
  • vue 钩子函数updated什么时候触发
  • 消息队列使用常见问题
  • 常用SQL命令
  • 【neteq】tgcall的调用、neteq的创建及接收侧ReceiveStatisticsImpl统计
  • 使用Python读取las点云,写入las点云,无损坐标精度
  • python开发二
  • 部署JVS服务出现上传文件不可用,问题原因排查。
  • 机器视觉检测为什么是工业生产的刚需?
  • Adobe系列软件安装
  • 【FX110】2024外汇市场中交易量最大的货币对是哪个?
  • leetcode尊享面试100题(549二叉树最长连续序列||,python)
  • C#面试题: 寻找中间值
  • 987: 输出用先序遍历创建的二叉树是否为完全二叉树的判定结果
  • 13:HAL---SPI
  • 微服务---gateway网关
  • HTML4(二)
  • SpringBoot 扩展篇:ConfigFileApplicationListener源码解析
  • 蓝桥杯省三爆改省二,省一到底做错了什么?
  • Unity EventSystem入门
  • 第4章 Vim编辑器与Shell命令脚本
  • javaWeb快速部署到tomcat阿里云服务器
  • [MQTT]Mosquitto的內網連接(intranet)和使用者/密碼權限設置
  • 某盾BLACKBOX逆向关键点