当前位置: 首页 > news >正文

【附代码】NumPy加速库NumExpr(大数据)

文章目录

    • 相关文献
    • 测试电脑配置
    • 数组加减乘除
    • 数组乘方
    • Pandas加减乘除
    • 总结

作者:小猪快跑

基础数学&计算数学,从事优化领域5年+,主要研究方向:MIP求解器、整数规划、随机规划、智能优化算法

如有错误,欢迎指正。如有更好的算法,也欢迎交流!!!——@小猪快跑

相关文献

  • NumExpr Documentation Reference — numexpr 2.8.5.dev1 documentation

测试电脑配置

博主三千元电脑的渣渣配置:

CPU model: AMD Ryzen 7 7840HS w/ Radeon 780M Graphics, instruction set [SSE2|AVX|AVX2|AVX512]
Thread count: 8 physical cores, 16 logical processors, using up to 16 threads

数组加减乘除

我们计算 2 * a + 3 * b,发现在数据量较大时候,NumExpr明显快于NumPy
在这里插入图片描述

import perfplot
from matplotlib import pyplot as plt
import numpy as np
import numexpr as nedef numpy_add(a, b):return 2 * a + 3 * bdef numexpr_add(a, b):return ne.evaluate("2 * a + 3 * b")if __name__ == '__main__':b = perfplot.bench(setup=lambda n: (np.random.rand(n), np.random.rand(n)),kernels=[numpy_add,numexpr_add,],n_range=[2 ** k for k in range(25)],xlabel="length of DataFrame",)plt.figure(dpi=300)b.save(f"arr_add.png")b.show()

数组乘方

我们计算 2 * a + b ** 10,发现在数据量较大时候,NumExpr明显快于NumPy
在这里插入图片描述

import perfplot
from matplotlib import pyplot as plt
import numpy as np
import numexpr as nedef numpy_power(a, b):return 2 * a + b ** 10def numexpr_power(a, b):return ne.evaluate("2 * a + b ** 10")if __name__ == '__main__':b = perfplot.bench(setup=lambda n: (np.random.rand(n), np.random.rand(n)),kernels=[numpy_power,numexpr_power,],n_range=[2 ** k for k in range(25)],xlabel="length of DataFrame",)plt.figure(dpi=300)b.save(f"arr_power.png")b.show()

Pandas加减乘除

我们计算 (a + b) / (c - 1),发现在数据量较大时候,NumExpr明显快于Pandas

在这里插入图片描述

import pandas as pd
import perfplot
from matplotlib import pyplot as plt
from numpy.random._examples.cffi.extending import rng
import numexpr as nedef pandas_add(df):return (df['A'] + df['B']) / (df['C'] - 1)def numexpr_add(df):return df.eval('(A + B) / (C - 1)')def numpy_arr_add(df):a = df['A'].valuesb = df['B'].valuesc = df['C'].valuesreturn (a + b) / (c - 1)def numexpr_arr_add(df):a = df['A'].valuesb = df['B'].valuesc = df['C'].valuesreturn ne.evaluate("(a + b) / (c - 1)")if __name__ == '__main__':b = perfplot.bench(setup=lambda n: pd.DataFrame(rng.random((n, 3)), columns=['A', 'B', 'C']),kernels=[pandas_add,numexpr_add,numpy_arr_add,numexpr_arr_add,],n_range=[2 ** k for k in range(25)],xlabel="length of DataFrame",)plt.figure(dpi=300)b.save(f"pandas_add.png")b.show()

总结

总体来说在大数据下会有多倍的性能提升。但我们也容易观察到,就算10e8量级的数据,进行一次运算的时间也不超过1秒。一般计算次数多,数据量大,对速度有要求的场景下可以使用。

http://www.lryc.cn/news/296061.html

相关文章:

  • 4、安全开发-Python-蓝队项目流量攻击分析文件动态监控图片隐写技术
  • MySQL 日志管理
  • Python CSV文件读取和写入
  • 如何使用C#调用LabVIEW算法
  • 调用百度文心AI作画API实现中文-图像跨模态生成
  • JAVA SpringBoot中使用redis的事务
  • docker部署自己的网站wordpress
  • 基于ISO13400 (DoIP) 实现车辆刷写
  • Chrome 沙箱逃逸 -- Plaid CTF 2020 mojo
  • 汇编笔记 01
  • C语言:矩阵中的最小元素
  • 【原创】MQTT开发笔记(四)- 压力测试
  • vue 引入 百度地图API 和 路书
  • 【QT+QGIS跨平台编译】之二十六:【SpatialIndex+Qt跨平台编译】(一套代码、一套框架,跨平台编译)
  • SQL在云计算中的新角色:重新定义数据分析
  • 云安全的基本概念(基本目标与指导方针)
  • 猫头虎分享已解决Bug || docker: Error response from daemon: network not found
  • 《幻兽帕鲁》攻略:0基础入门及游戏基础操作 幻兽帕鲁基础设施 幻兽帕鲁基础攻击力 Mac苹果电脑玩幻兽帕鲁 幻兽帕鲁加班加点
  • JDK版本如何在IDEA中切换
  • 如何做零售企业满意度调查
  • platform tree架构下i2c应用实例(HS3003)
  • Mongodb聚合:$planCacheStats
  • 8个简约精美的WordPress外贸网站主题模板
  • 本地缓存Ehcache的应用实践 | 京东云技术团队
  • linux一键换源
  • Python Scapy库实现ARP扫描和ARP欺骗
  • Fink CDC数据同步(六)数据入湖Hudi
  • 线程和进程的区别及基础线程创建
  • 如何使用postman进行接口调试
  • Leetcode 198 打家劫舍