当前位置: 首页 > news >正文

CSDN热榜分析6:将实时爬取的热榜数据导入sqlite

文章目录

    • 初始化数据库
    • 接口更改
    • 数据库写入

初始化数据库

引入数据库的目的不止是为了存储,更多地也是为了便于查询,否则也没必要用一个Text控件来展示信息了。

所以一个正常的工作逻辑是,一打开热榜分析系统,也就同步打开数据库,然后随用随查,而打开数据库之后需要检查是否已经建立了热榜表格,如果没建立那么就建立一下。

所以在初始化函数中新增一个self.initSql(),内容如下

def initSql(self):self.dbCSDN = sqlite3.connect('csdn.db')HEADS = 'create table heat (日期 int, 时间 int, 热榜 text, 序号 int, 'HEADS += '标题 text, 作者 text, 浏览 int, 'HEADS += '评论 int, 收藏 int, 热度 int)'try: self.dbCSDN.execute(HEADS)except: pass

如果已经有了heat表格,那么再去创建就会报错,所以只要pass掉就可以了。

接口更改

相比于读取完所有数据之后一次性导入数据库,在数据爬取的过程中导入显然更加自然。
另一方面,读取数据需要新开一个线程,而sqlite3模块并不支持跨线程操作,所以只能等数据传回来再操作,

这两个条件,就基本框定了技术方案,只能在爬虫回调时写入数据库,但之前的回调函数是直接把当前爬取的数据列表传回,而非单条数据,所以需要花费一点精力修改接口,主要就是把大部分调用回调函数的地方,从类似callback(blogs)改为callback(b),然后将backOneSubHeat改成下列形式

def backOneSubHeat(self, L, info, field=None):if field not in self.subHeats:self.subHeats[field] = []if L != []:self.subHeats[field].append(L)if info.endswith("完毕"):n = len(self.subHeats[field])self.addLogs(f"共读取了{field}领域{n}篇博客")

同时为了接口统一,之前的backAllSubHeat就没有必要存在了,同时更改getAllSubHeatInfos函数

def getAllSubHeatInfos(callback):blogs = {}for key in SUB_HEATS:func = lambda L, info : callback(L, info, key)func([], f"正在读取{key}领域热榜")blogs[key] = getHeatInfos(func, key)func([], f"{key}已经读取完成")func([], f"所有领域热榜都已读取完成")return blogs

数据库写入

最麻烦的工作结束了,现在可以开始数据库写入

# L为回传的数据
def importHeatToSql(self, L, field):CODE = "insert into heat values (date('now'), time('now'), "bInfo = ', '.join([f"'{iL}'" for iL in L])c = CODE + f"'{field}', {bInfo})" try: self.dbCSDN.execute(c)except Exception as e: print(e, c)

最后,在关闭窗口时,别忘了存储和关闭数据库,首先在初始化函数中添加

self.root.protocol("WM_DELETE_WINDOW", self.exit)

其self.exit内容如下

def exit(self):self.dbCSDN.commit()self.dbCSDN.close()self.root.destroy()

为了确保的的确确把数据写入了数据库,可以用SQLiteStudio查看一下,

在这里插入图片描述

http://www.lryc.cn/news/214880.html

相关文章:

  • 2023年11月1日,Google全新域名来袭:.ing域名现已问世!
  • 【设计模式】第22节:行为型模式之“状态模式”
  • JavaSE21——ArrayList
  • 找质数(枚举 埃氏筛 线性筛)
  • 第十二章 ObjectScript 系统标志和限定符 (qspec) - 标志
  • 解决Windows Server 2012 由于没有远程桌面授权服务器可以提供需求可证
  • 上位机底部栏 UI如何设置
  • MySQL表的增删改查(基础)
  • uniapp书写顶部选项卡代码详细例子
  • 注册中心ZK、nameServer、eureka、Nacos介绍与对比
  • 杂志详情。
  • 前端知识与基础应用#2
  • 【3D 图像分割】基于 Pytorch 的 VNet 3D 图像分割6(数据预处理)
  • 硬件加速器及其深度神经网络模型的性能指标理解
  • 嵌入式每日500(4)231104 (Flash类型定义、Flash常量定义、Flash函数)
  • 21款奔驰GLC300L升级23P驾驶辅助 出行更加的安全
  • 【小黑嵌入式系统第七课】PSoC® 5LP 开发套件(CY8CKIT-050B )——PSoC® 5LP主芯片、I/O系统、GPIO控制LED流水灯的实现
  • 深度学习简史
  • CSRF 和 XSS 是什么
  • 亚信科技发布“电信级”核心交易数据库AntDB7.0,助力政企“信”创未来!
  • 硬件调试-电源纹波测量
  • 【洛谷算法题】P5710-数的性质【入门2分支结构】
  • arcgis图上添加发光效果!
  • [MySQL]——SQL预编译、动态sql
  • 安装ifconfig命令(两步搞定)
  • 【蓝桥杯 第十届省赛Java B组】真题训练(A - H)H待更新
  • 【牛客题】二进制求和 <模拟>
  • Error:Only idle or expired IP address can be disabled.
  • Xubuntu16.04系统中create_ap开启5G网络的踩坑记录
  • 8. 一文快速学懂常用工具——Linux命令(上)