当前位置: 首页 > news >正文

爬虫与反爬虫实现全流程

我选取的网页爬取的是ppt nba版

需要的工具:pycharm,浏览器

爬虫需要观察它的网页信息,然后开始首先爬取它的html,可以看到有人气,标题,日期,咨询

可以看到用get方法

import requests
url="https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fwww.ptt.cc%2Fbbs%2FNBA%2Findex.html&pos_id=lJ5YB9Tu"
respone=requests.get(url)
print(respone.text)

接下来把它下载下来

with open('output.html','w',encoding='utf-8')as f:f.write(respone.text)

反爬虫使用header方法,观察User-Agent: AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36

放入header

import requests
url="https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fwww.ptt.cc%2Fbbs%2FNBA%2Findex.html&pos_id=lJ5YB9Tu"
headers={'User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36'}
respone=requests.get(headers=headers)
# print(respone.text)
with open('output.html','w',encoding='utf-8')as f:f.write(respone.text)

接下来正式开始爬取自己想要的资料

 去终端机安一下beautifulsoup

pip install beautifulsoup4

 解析获得文章列表parser

soup beautifulSoup(respone.text,"html.parser" )

接下来把我们需要的值一个一个取出来

标题: div  a  title.text

人气:div class=nrec span

日期:div date

http://www.lryc.cn/news/511703.html

相关文章:

  • Kimi进行学术方向选择精讲!
  • 湖北产教融合教育研究院重庆分院揭牌成立
  • 探索CSS Houdini:下一代样式与动画技术
  • winserver搭建域环境
  • 鸿蒙开发工程师成长的五个阶段
  • Redis集成到SpingBoot 的数据结构常见操作
  • 输入输出(I/O):熟悉 Java 的 I/O 类库,尤其是 NIO 和文件操作
  • mysql建立主从集群
  • Python AI 教程之四:无监督学习
  • ReactiveStreams、Reactor、SpringWebFlux
  • Qt 的信号槽机制详解:之信号槽引发的 Segmentation Fault 问题拆析(下)
  • opencv(cpp) Mat使用总结
  • 【Hackthebox 中英 Write-Up】Web Request | 分析 HTTP 请求和响应
  • c#多线程之生产者-消费者模型
  • Spring Boot中幂等性的应用
  • 【机器学习】分类
  • 5.若依的角色权限控制
  • Lumos学习王佩丰Excel第二十三讲:饼图美化与PPT图表
  • 安装winserver2008R2虚拟机步骤
  • ACPI PM Timer
  • Linux 和设备树
  • Qt仿音乐播放器:QFileDialog添加本地文件
  • Odoo 引用字段 fields.Reference:动态关系的选择器
  • Android笔试面试题AI答之Android基础(6)
  • C# 中的记录类型简介 【代码之美系列】
  • 利用Java爬虫速卖通按关键字搜索AliExpress商品
  • gitlab runner 实现 微信小程序自动化部署
  • Playwright爬虫xpath获取技巧
  • 总结TCP/IP四层模型
  • netcat和nmap的区别