当前位置: 首页 > news >正文

python 爬虫抓取百度热搜

实现思路:

第1步、在百度热搜页获取热搜元素

元素类名为category-wrap_iQLoo 即我们只需要获取类名category-wrap_为前缀的元素

第2步、编写python脚本实现爬虫

import requests
from bs4 import BeautifulSoupurl = 'https://top.baidu.com/board?tab=realtime'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, 'html.parser')
hot_searches = []
# 使用CSS选择器匹配类名前缀为'category-wrap_'的元素
category_wrap_prefix_elements = soup.select('[class^="category-wrap_"]')
# 遍历并打印这些元素
for element in category_wrap_prefix_elements:title = element.find('div', class_='c-single-text-ellipsis').get_text().strip()link = element.find('a')['href']print(title, link)hot_searches.append({title, link})
print(hot_searches)

控制台打印

http://www.lryc.cn/news/467348.html

相关文章:

  • 3.1 > Linux文件管理(基础版)
  • CTFHUB技能树之文件上传——MIME绕过
  • 4种鼓励创业创新的方法
  • C#中的LINQ之美:优雅的数据查询与操作
  • 深入浅出:深度学习模型部署全流程详解
  • git已经commit,但未push想撤回提交
  • SSL VPN调试思路及配置指南
  • 多租户架构的全景分析(基本概念、实现策略、资源管理和隔离、数据安全与隔离、性能优化、扩展性与升级、案例研究)
  • TDengine数据库整合MyBatis实现SpringBoot项目CRUD
  • 1493. 删除一个元素以后全为1的最长子数组 - 题解
  • 密钥管理方法DUKPT的OpenSSL代码实现Demo
  • 计算机视觉中的坐标变换
  • C++——NetWork
  • iOS -- 代码优化
  • docker配置普通用户访问
  • php后端学习,Java转php
  • Elasticsearch 中管道介绍
  • 将jinjia2后端传到前端的字典数据转化为json
  • Linux中如何理解一切皆文件
  • 【贪心算法】(第十一篇)
  • React(五) 受控组件和非受控组件; 获取表单元素的值。高阶组件(重点),Portals; Fragment组件;严格模式StrictMode
  • 深入解析 Jenkins 自动化任务链:三大方法实现任务间依赖与状态控制
  • 无人机飞手执照培训为什么需要脱产学习?
  • PostgreSQL(十三)pgcrypto 扩展实现 AES、PGP 加密,并自定义存储过程
  • uniapp使用webView打开的网页有缓存如何解决(APP,微信小程序)
  • HarmonyOS 模块化设计
  • 解决docker拉取readeck镜像报Error response from daemon: toomanyrequests问题
  • duilib的应用 在双屏异分辨率的显示器上 运行显示不出来
  • 零代码快速开发智能体 |甘肃旅游通
  • 【MATLAB源码-第187期】基于matlab的人工蜂群优化算法(ABC)机器人栅格路径规划,输出做短路径图和适应度曲线。