当前位置: 首页 > news >正文

【知识】稀疏矩阵是否比密集矩阵更高效?

转载请注明出处:小锋学长生活大爆炸[xfxuezhang.cn]

问题提出

        有些地方说,稀疏图比密集图的计算效率更高,真的吗?

原因猜想

        这里的效率高,应该是有前提的:当使用稀疏矩阵的存储格式(如CSR)时,计算效率更高。如果是普通的完整矩阵格式,实际上效率一样。

        稀疏矩阵的存储格式(如 COO、CSR 或 CSC)直接影响乘法的效率, 一些格式在某些类型的运算中更高效,因为它们可以更快地访问和处理非零元素。因此,当使用了稀疏矩阵存储格式时,如果矩阵非常稀疏(即大多数元素为零),那么使用稀疏矩阵进行矩阵乘法通常会更高效,因为可以跳过大量的零元素乘法操作。

代码验证

import numpy as np
from scipy.sparse import csr_matrix
import time
import matplotlib.pyplot as plt
from tqdm import tqdmdef measure_time(matrix_size=1000, density=0.1):# 创建密集矩阵dense_matrix = np.random.rand(matrix_size, matrix_size)# 创建普通的稀疏矩阵sparse_matrix = dense_matrix < densitysparse_matrix = sparse_matrix.astype(np.float64)# 将普通的稀疏矩阵转换为CSR格式csr_matrix_sparse = csr_matrix(sparse_matrix)# warmupfor _ in range(5):np.dot(sparse_matrix, sparse_matrix)# 对普通的稀疏矩阵进行矩阵乘法,并计时start_time = time.time()_ = np.dot(sparse_matrix, sparse_matrix)sparse_time = time.time() - start_time# warmupfor _ in range(5):np.dot(dense_matrix, dense_matrix)# 对密集矩阵进行矩阵乘法,并计时start_time = time.time()_ = np.dot(dense_matrix, dense_matrix)dense_time = time.time() - start_time# warmupfor _ in range(5):csr_matrix_sparse.dot(csr_matrix_sparse)# 对CSR格式的稀疏矩阵进行矩阵乘法,并计时start_time = time.time()_ = csr_matrix_sparse.dot(csr_matrix_sparse)csr_time = time.time() - start_timereturn sparse_time, dense_time, csr_time# 矩阵大小范围
sizes = np.arange(10, 1001, 10)
# 记录每种大小下的耗时
times_sparse = []
times_dense = []
times_csr = []
for size in tqdm(sizes):sparse_time, dense_time, csr_time = measure_time(matrix_size=size)times_sparse.append(sparse_time)times_dense.append(dense_time)times_csr.append(csr_time)
# 绘制结果
plt.figure(figsize=(10, 6))
plt.plot(sizes, times_sparse, label='sparse')
plt.plot(sizes, times_dense, label='dense')
plt.plot(sizes, times_csr, label='csr')
plt.xlabel('matrix size')
plt.ylabel('time (s)')
plt.title('matrix_size vs time')
plt.legend()
plt.show()# 稀疏度范围
density = np.arange(0, 1, 0.01)
# 记录每种大小下的耗时
times_sparse = []
times_dense = []
times_csr = []
for den in tqdm(density):sparse_time, dense_time, csr_time = measure_time(density=den)times_sparse.append(sparse_time)times_dense.append(dense_time)times_csr.append(csr_time)
# 绘制结果
plt.figure(figsize=(10, 6))
plt.plot(density, times_sparse, label='sparse')
plt.plot(density, times_dense, label='dense')
plt.plot(density, times_csr, label='csr')
plt.xlabel('density')
plt.ylabel('time (s)')
plt.title('density vs time')
plt.legend()
plt.show()

        从上图可以看出,随着矩阵大小的增大,三种形式的计算效率都在降低,但两种普通的完整矩阵形式的乘法,其效率的变化趋势是一致的。考虑到时间统计有波动,因此可以看成他俩实际上是一样的时间。

        注意,上图中CSR的计算效率低于其他两者,是因为密集度为0.1。当密集度设置为0.01时,CSR的计算效率就会更高了。

        从这个图可以看到,随着密集度的增加,CSR的效率逐渐变低,但普通的完整矩阵形式的乘法,其效率并没有发生变化。

http://www.lryc.cn/news/254011.html

相关文章:

  • 代码随想Day24 | 回溯法模板、77. 组合
  • 搜索与回溯算法②
  • Centos图形化界面封装OpenStack Ubuntu镜像
  • 使用Jmeter进行http接口测试怎么做?
  • 创建腾讯云存储桶---上传图片--使用cos-sdk完成上传
  • 12.3_黑马MybatisPlus笔记(上)
  • 智能优化算法应用:基于寄生捕食算法无线传感器网络(WSN)覆盖优化 - 附代码
  • 全息图着色器插件:Hologram Shaders Pro for URP, HDRP Built-in
  • Python Opencv实践 - 简单的AR项目
  • Java不可变集合
  • openGauss学习笔记-146 openGauss 数据库运维-备份与恢复-配置文件的备份与恢复
  • 一文读懂中间件
  • 【编程基础心法】「设计模式系列」让我们一起来学编程界的“兵法”设计模式(序章)
  • 技术阅读周刊第第8️⃣期
  • HTML程序大全(2):通用注册模版
  • 【循环结构 for、break、continue高级用法】
  • JAVA网络编程——BIO、NIO、AIO深度解析
  • Linux高级系统编程-3 进程
  • ES-ELSER 如何在内网中离线导入ES官方的稀疏向量模型(国内网络环境下操作方法)
  • Excel 使用技巧
  • Hadoop学习笔记(HDP)-Part.03 资源规划
  • 一个最新国内可用的免费GPT4,Midjourney绘画网站+使用教程
  • 深入了解Java8新特性-日期时间API之ZonedDateTime类
  • 使用Vue写一个日期选择器
  • 19、pytest通过mark标记测试函数
  • Linux环境变量与命令行参数
  • jQuery实现3D轮播图
  • Java面试题(每天10题)-------连载(43)
  • Python高级数据结构——并查集(Disjoint Set)
  • pytorch学习9-优化器学习