当前位置: 首页 > news >正文

【爬虫实战】python微博热搜榜Top50

一.最终效果

二.项目代码

2.1 新建项目

本文使用scrapy分布式、多线程爬虫框架编写的高性能爬虫,因此新建、运行scrapy项目3步骤:

1.新建项目:
scrapy startproject weibo_hot

2.新建 spider:
scrapy genspider hot_search "weibo.com"

3.运行 spider:
scrapy crawl hot_search

注意:hot_search 是spider中的name

4.编写item:

class WeiboHotItem(scrapy.Item):index = scrapy.Field()topic_flag = scrapy.Field()icon_desc_color = scrapy.Field()small_icon_desc = scrapy.Field()small_icon_desc_color = scrapy.Field()is_hot = scrapy.Field()is_gov = scrapy.Field()note = scrapy.Field()mid = scrapy.Field()url = scrapy.Field()flag = scrapy.Field()name = scrapy.Field()word = scrapy.Field()pos = scrapy.Field()icon_desc = scrapy.Field()

5.编写爬虫解析代码:


import os
from itemadapter import ItemAdapter
from .settings import DATA_URI
from .Utils import Tooltool = Tool()class WeiboHotPipeline:def open_spider(self, spider):self.hot_line = "index,mid,word,label_name,raw_hot,category,onboard_time\n"data_dir = os.path.join(DATA_URI)file_path = data_dir + '/hot.csv'#判断文件夹存放的位置是否存在,不存在则新建文件夹if os.path.isfile(file_path):self.data_file = open(file_path, 'a', encoding='utf-8')else:if not os.path.exists(data_dir):os.makedirs(data_dir)self.data_file = open(file_path, 'a', encoding='utf-8')self.data_file.write(self.hot_line)def close_spider(self, spider):  # 在关闭一个spider的时候自动运行self.data_file.close()def process_item(self, item, spider):try:hot_line = '{},{},{},{},{},{},{}\n'.format(item.get('index', ''),item.get('mid', ''),item.get('word', ''),item.get('label_name', ''),item.get('raw_hot', ''),tool.translate_chars(item.get('category', '')),tool.get_format_time(item.get('onboard_time', '')),)self.data_file.write(hot_line)except BaseException as e:print("hot错误在这里>>>>>>>>>>>>>", e, "<<<<<<<<<<<<<错误在这里")return item

三.注意事项

settings.py配置项修改


# Obey robots.txt rules
ROBOTSTXT_OBEY = False # 关闭,否则根据weibo的爬虫策略爬虫无法获取数据

如果

四.运行过程

五.项目说明文档

六.获取完整源码

爱学习的小伙伴,本次案例的完整源码,已上传微信公众号“一个努力奔跑的snail”,后台回复 热搜榜 即可获取。

http://www.lryc.cn/news/193557.html

相关文章:

  • 【网络基础】——传输层
  • 删除字符串特定的字符(fF)C语言
  • C++入门(1):命名空间,IO流 输入输出,缺省参数
  • Go 语言面试题(三):并发编程
  • Linux - make命令 和 makefile
  • FPGA复习(功耗)
  • element ui el-table表格复选框,弹框关闭取消打勾选择
  • 数据结构——队列
  • 【Unity引擎核心-Object,序列化,资产管理,内存管理】
  • Generics/泛型, ViewBuilder/视图构造器 的使用
  • 数据结构之手撕顺序表(增删查改等)
  • 进阶JAVA篇- ZoneId 类与 ZoneDateTime 类、Instant类的常用API(七)
  • bat脚本字符串替换:路径中\需要替换,解决一些文件写入路径不对的问题
  • python一行命令搭建web服务,实现内网共享文件
  • RK3562开发板:升级摄像头ISP,突破视觉体验边界
  • 数据结构与算法-队列
  • 腾讯云轻量2核4G5M可容纳多少人访问?
  • 【分布式计算】九、容错性 Fault Tolerance
  • The SDK location is inside Studio install location 解决
  • 【蓝桥】数树数
  • 2、Windows下安装
  • vue中transition的使用
  • 性能测试中如何使用RunnerGo还原混合并发场景
  • KanziStudio described using object-oriented design patterns(持续更新...)
  • 线程同步的几种方式
  • Linux网络编程系列之服务器编程——多路复用模型
  • 在SQL语句里使用正则表达式,因该怎么使用
  • 扫码登录-测试用例设计
  • PyTorch CUDA GPU高占用测试
  • Java|学习|abstract ,接口 Interface , Object