当前位置: 首页 > article >正文

Python教程:老师傅带你爬取全网妹子图!

https://www.bilibili.com/video/av12721444/

代码如下(python3版本20180704可用)

#-*-coding:utf-8 -*-
from bs4 import BeautifulSoup
import urllib #python 3.x中urllib库和urilib2库合并成了urllib库,像你这个 import urlib 然后把urllib2.urlopen() 改成 urllib.request.urlopen()即可
#import sys
#reload(sys)
#sys.setdefaultencoding('utf-8')
url='http://www.dbmeinv.com/?paper_offset=1'
def crawl(url): #反爬虫,获取不到想要的内容或者请求失败,模拟模拟器访问,加上头部信息
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}req=urllib.request.Request(url,headers=headers) #创建对象
    page=urllib.request.urlopen(req,timeout=20) #设置超时
    contents=page.read()#print(contents)
    soup=BeautifulSoup(contents,'html.parser')my_girl=soup.find_all('img') #找到img标签
    x=0
    for girl in my_girl: #遍历
        link=girl.get('src') #获取src路径
        print(link)#global x    #全局变量
        urllib.request.urlretrieve(link,'image\%s.jpg'% x) #下载
        x +=1
        print("正在下载第%s张"%x)
crawl(url)'''
html=''
soup=BeautifulSoup(open('a.html'),'html.parser')
print(soup.prettify())
'''
'''
html='<title>同学们都很棒</title>'
soup=BeautifulSoup(html,'html.parser') #创建对象,解析网页
print(soup.title)
'''
#'http://www.dbmeinv.com/?paper_offset=%s'%'2' %占位符

#'http://www.dbmeinv.com/?paper_offset=()'.format()

http://www.lryc.cn/news/2414338.html

相关文章:

  • vbs格式编程教程基础
  • Struts2框架漏洞总结与复现(下)
  • gbk编码在线转换工具_免费在线PDF转换小工具,让你工作效率提高90%
  • 运维堡垒机Gate One-学习笔记
  • 从零开始学习Oracle之数据备份与还原
  • 常用时序逻辑电路模块:计数器
  • 新手如何学习c语言? 小马带你入门
  • 【Python】决策树算法 详解版【附完整版示例】
  • 几个文件指针操作的函数
  • 边缘检测:Canny算子
  • 简单html页面代码分享---百度
  • 计算机病毒的基本知识
  • HTML标签及案例超详细笔记
  • Hibernate注解版关联关系映射全解析+案例
  • 什么是SOA?
  • matlab 数理统计,概率论和数理统计(matlab应用)1
  • 如何做好大型OA系统的需求分析?
  • zzuli OJ 2353: 小明学长给学弟的任务
  • ArgumentOutOfRangeException: 指定的参数已超出有效值的范围。 参数名: site
  • Apache Rewrite Rule 重写规则及作用范围
  • 康博(COMPUWARE)软件公司简介
  • webstorm安装、激活、汉化(小白亲测可用)
  • 基本RC积分电路及原理分析
  • 免费获取半年 Bitdefender Total Security 2014
  • chmod 和 chown 命令用法
  • JPA的配置文件persistence.xml怎么配
  • JS获取子节点、父节点和兄弟节点的若干种方式
  • tcp,udp,MTU相关知识
  • quake3编译运行
  • 用follow.it为您的网站添加邮箱订阅功能(附2024版教程)