当前位置: 首页 > news >正文

简单的爬虫代码 爬(豆瓣电影)

路漫漫其修远兮,吾将上下而求索

这次写一个最简单的python爬虫代码,也是大多教程第一次爬取的,代码里面有个别的简单介绍,希望能加深您对python爬虫的理解。

本次爬取两个网页数据

一 爬取的网站  豆瓣电影

爬取网页中的(肖申克的救赎 1994 评分是: 9.7 共 911165人评价)

                      (电影名, 年份, 评分,评价人数)

代码

import csv
import re,requests
#拿到源代码 requests,通过re获取想要的数据,csv写入操作
url='https://movie.douban.com/top250'
h={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62'
}
r=requests.get(url,headers=h);r.encoding='utf-8'yuanma=r.text# 拿到网页源代码
#解析数据
obj=re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>'r'.*?<p class="".*?<br>(?P<year>.*?)&nbsp.*?property="v:average".(?P<pf>.*?)</span>'r'.*?<span>.(?P<pl>.*?)</span>',re.S)
#开始匹配
r=obj.finditer(yuanma)
f=open('shuju.csv',mode='w')#打开一个文件
csvs=csv.writer(f)
for i in r:print(i.group("name"),i.group("year").strip(),'评分是:',i.group('pf'),'共',i.group('pl'))#strip()去掉空白
print("完成!")

实验效果:

二  爬取保定学院官网网页的href(链接)

代码

#爬取保定学院官网网页的href(链接)
import re,requests
from bs4 import BeautifulSoup
#拿到源代码 requests,通过re获取想要的数据,csv写入操作
url="https://www.bdu.edu.cn/"
r=requests.get(url);r.encoding='utf-8'
yuanma=r.text# 拿到网页源代码
bs=BeautifulSoup(yuanma)
cha=bs.findAll('a')
for i in cha:if 'href' in i.attrs:#print(i)print(i.attrs['href'],'-',i.text)
r.close()

实验效果:

 本文章只是单纯的从技术角度介绍使用python代码搜索网页数据,读者要正常使用技术。

希望对您有所帮助。

 最后,谢谢您的观看

http://www.lryc.cn/news/154935.html

相关文章:

  • 微服务之架构演变
  • 面试问题记录一 --- C++(Qt方向)
  • 使用词袋模型(BoW)测试提取图像的特征点和聚类中心
  • 利用vba处理Excel表格数据实现键值转化,适用于将编码转化成对应的文本
  • IntelliJ IDEA(Windows 版)的所有快捷键
  • 文件上传漏洞全面渗透姿势
  • GreenPlum的gpfdist使用与原理流程分析
  • Spring AOP与静态代理/动态代理
  • 【LeetCode算法系列题解】第51~55题
  • 驱动开发错误汇编
  • 知识图谱项目实践
  • stable diffusion实践操作-提示词-人物属性
  • RabbitMQ的安装和配置
  • WebRTC 日志
  • 【python爬虫】16.爬虫知识点总结复习
  • Windows系统中Apache Http服务器简单使用
  • Django ORM 框架中的表关系,你真的弄懂了吗?
  • 第五课:C++实现加密PDF文档解密
  • 罗马数字转整数
  • processflow流程图多人协作预热
  • PCL点云处理之快速计算多个点到同一直线的距离(二百零五)
  • xxl-job 任务调度搭建及简单使用
  • mysql数据库使用技巧整理
  • 车规微控制器的ECC机制及EMU外设
  • Less的强大变量用法
  • 【相机标定】opencv python 标定相机内参时不计算 k3 畸变参数
  • html 标签简介
  • dos汇编总结
  • 四川玖璨电子商务有限公司:短视频有什么运营
  • 混合查询多家快递,快速掌握物流信息