当前位置：首页 > news >正文

用Python打造你的微博热搜追踪器

news 2025/8/18 14:09:40

简介

在当今信息爆炸的时代，获取最新、最热门的信息成为了许多人的日常需求。微博热搜榜作为反映社会热点和公众关注焦点的重要窗口，其信息价值不言而喻。本文将介绍一个实用的Python爬虫程序，它能够自动爬取微博热搜榜的信息，并通过邮件的形式将这些信息发送给用户，帮助用户及时了解社会动态，把握热点趋势。

总体介绍

本博客文章将详细介绍一个关于微博热搜榜简单爬虫程序。该程序的主要功能是自动获取微博热搜榜上的信息，并将这些信息通过邮件发送给用户。程序使用了以下模块：

requests：用于发送HTTP请求，获取网页内容。
BeautifulSoup：用于解析HTML网页，方便提取所需信息。
smtplib：用于发送邮件。
email.utils 和 email.mime.text：用于构建邮件的各个部分。

程序中定义了三个主要函数：

page_request(url, header)：发送HTTP请求，获取网页内容，并返回HTML代码。
page_parse(html)：解析HTML代码，提取热搜信息，并调用email_set()函数发送邮件。
email_set(data)：构建邮件的各个部分，并发送邮件。

此外，程序还包含一个job()函数，它负责调用page_request()和page_parse()函数，实现整个爬取和邮件发送的流程。

完整代码：

# 爬虫相关模块
import requests
from bs4 import BeautifulSoupimport smtplib
import email.utils
from email.mime.text import MIMETextimport time# 请求网页
def page_request(url, header):response = requests.get(url=url, headers=header)html = response.content.decode("UTF-8")return html# 解析网页
def page_parse(html):soup = BeautifulSoup(html, 'html.parser')news = []# 处理热搜前50urls_title = soup.select('#pl_top_realtimehot > table > tbody > tr > td.td-02 > a')hotness = soup.select('#pl_top_realtimehot > table > tbody > tr > td.td-02 > span')for i in range(len(urls_title)):new = {}title = urls_title[i].get_text()url = urls_title[i].get('href')# 个别链接会出现异常if url == 'javascript:void(0);':url = urls_title[i].get('href_to')# 热搜top没有显示热度if i == 0:hot = 'top'else:hot = hotness[i - 1].get_text()new['title'] = titlenew['url'] = "https://s.weibo.com" + urlnew['hot'] = hotnews.append(new)print(len(news))for element in news:print("新闻: "+element['title'] + '\t热度: ' + element['hot'] + '\t网址: ' + element['url'])# 发送邮件email_set(news)def email_set(data):text =""no=1for element in data:text+=str(no)+" 新闻: "+element['title'] + '\n热度: ' + element['hot'] + '\n网址: ' + element['url']+"\n\n"no+=1subject = '微博热搜榜'+str(time.time())message = MIMEText(text)message['To'] = email.utils.formataddr(('02', ''))message['From'] = email.utils.formataddr(('01', ''))message['Subject'] = subjectserver = smtplib.SMTP_SSL('smtp.qq.com', 465)server.login('', 'yrbqcwfhlcvucjcj')server.set_debuglevel(True)try:server.sendmail('', [''], msg=message.as_string())print("发送成功\n\n")except:print("发送失败")finally:server.quit()def job():print('开始爬取微博热搜')header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'zh-CN,zh-Hans;q=0.9','Accept-Encoding': 'gzip, deflate, br','Cookie': ""}url = 'https://s.weibo.com/top/summary'html = page_request(url=url, header=header)page_parse(html)if __name__ == "__main__":while True:job()time.sleep(20)