当前位置: 首页 > news >正文

python爬虫实战——数据可视化

本篇文章将介绍如何利用Python爬虫获取数据并进行可视化展示,包括以下主要内容:

  1. 数据获取:使用requests库发送HTTP请求获取目标网页的数据;
  2. 数据解析:使用BeautifulSoup库对HTML代码进行解析提取所需数据;
  3. 数据存储:使用pandas库将数据保存至本地文件;
  4. 数据可视化:使用matplotlib和seaborn库对数据进行可视化展示。

代码示例中我们选取了新浪财经网站进行爬取,获取了股票的实时数据并进行了可视化展示。

1. 数据获取

在使用Python进行数据获取之前,需要安装requests库,我们可以使用pip命令进行安装。

pip install requests

下面是获取股票实时数据的代码示例:

import requestsurl = 'http://hq.sinajs.cn/list=sh000001'
response = requests.get(url)
data = response.text
print(data)

首先我们定义了目标网页的URL地址,然后使用requests库发送HTTP请求获取网页数据。得到的response对象中包含了HTTP响应的状态码、响应头和响应体等信息,我们使用response.text获取响应体中的文本数据,即股票实时数据。

2. 数据解析

得到股票实时数据后,下一步是对数据进行解析,提取所需的信息。在Python中我们可以使用BeautifulSoup库对HTML代码进行解析,它提供了一种非常方便的方式来获取网页中的数据。

我们先来看看新浪财经网站上股票实时数据的HTML代码:

var hq_str_sh000001="上证指数,3283.92,20.27,0.62,675021,8887585";

我们可以看到,股票实时数据以var hq_str_sh000001=开头,以分号结尾,中间是以逗号分隔的各个字段。我们可以使用字符串的split()函数将其分割成一个列表。

from bs4 import BeautifulSoupsoup = BeautifulSoup(data, 'html.parser')
items = soup.text.split(',')
name = items[0].split('=')[1]
price = items[1]
change = items[2]
pchange = items[3]
volume = items[4]
amount = items[5][:-1]  # 去掉最后一个分号
print(name, price, change, pchange, volume, amount)

使用BeautifulSoup库解析HTML代码,我们可以方便地获取各个字段的值。在这里我们使用split()函数将text文本分割成一个列表,然后通过列表的下标获取所需的数据。注意最后一个字段amount中包含有分号,我们使用切片[:-1]去掉最后一个分号。

3. 数据存储

我们将股票实时数据保存至本地文件,以便后续的数据可视化展示。在Python中我们可以使用pandas库将数据保存为CSV文件。

import pandas as pddata = [[name, price, change, pchange, volume, amount]]
df = pd.DataFrame(data, columns=['name', 'price', 'change', 'pchange', 'volume', 'amount'])
df.to_csv('data.csv', index=False)

使用pandas库创建DataFrame对象,然后将数据保存为CSV文件。注意在保存CSV文件时需要将索引(index)设置为False,否则会将索引也保存到文件中。

4. 数据可视化

将数据保存至本地文件后,我们可以使用matplotlib和seaborn库对数据进行可视化展示。下面是代码示例:

import matplotlib.pyplot as plt
import seaborn as snsdf = pd.read_csv('data.csv')
fig, ax = plt.subplots(figsize=(10, 6))
sns.barplot(x='name', y='pchange', data=df, ax=ax)
ax.set_xlabel('股票名称')
ax.set_ylabel('涨跌幅')
ax.set_title('股票实时涨跌幅')plt.show()

使用pandas库读取CSV文件中的数据,然后使用seaborn库绘制条形图。在这里我们将股票名称作为x轴,涨跌幅作为y轴。通过设置图形大小、坐标轴标签和标题等属性,我们可以使图形更加美观。

总结

生成结果后我们可以看到,使用Python爬虫获取数据后进行可视化展示非常方便,通过数据图形化展示可以更直观地观察数据的趋势和变化,从而更好地进行数据分析和决策。

 

http://www.lryc.cn/news/119726.html

相关文章:

  • 案例13 Spring MVC参数传递案例
  • IntellIJ Idea 连接数据库-MySql
  • 通讯协议036——全网独有的OPC HDA知识一之聚合(五)计数
  • 【TensorFlow】P0 Windows GPU 安装 TensorFlow、CUDA Toolkit、cuDNN
  • 基于身份的安全威胁正在迅速增长
  • 解决ElementUI动态表单校验验证不通过
  • 深眸科技|发现AI+3D视觉的价值,技术升级加速视觉应用产品国产替代
  • 云计算-知识点大纲
  • 设计模式(2)工厂方法模式
  • 如何创建51单片机KEIL工程
  • openGauss学习笔记-34 openGauss 高级数据管理-SCHEMA
  • 虚拟世界探索:科技之下的未来可能性
  • OSPF技术入门(第三十四课)
  • 春秋云镜 CVE-2022-0948
  • 【资讯速递】AI与人类思维的融合;OpenAI在中国申请注册“GPT-5”商标;移动大模型主要面向to B 智能算力是未来方向
  • TDesign中后台管理系统-用户登录
  • RN 使用react-navigation写可以滚动的横向导航条(expo项目)
  • 单例模式写法的总结(保证线程安全)
  • SQL Server 查询数据并汇总相关技巧 23.08.08
  • 第一章 SpringBoot 介绍-最小配置
  • 10-1_Qt 5.9 C++开发指南_Data Visualization实现数据三维显示
  • [保研/考研机试] KY87 鸡兔同笼 北京大学复试上机题 C++实现
  • Jmeter快捷方式和应用图标设置
  • PHP sm4国密加密解密文件
  • CBCGPRibbon 添加Edit、Combox、Hyperlink控件
  • 漫话拥塞控制:BBR 是个单流模型
  • HTML详解连载(1)
  • 最新版本2023UI千月影视APP源码 开源完美版前后端完美匹配 后端基于ThinkPHP框架
  • centos7安装Docker详细步骤(无坑版教程)
  • Python入门自学进阶-Web框架——39、redis、rabbitmq、git——2