当前位置: 首页 > news >正文

Numpy科学计算与数据分析:Numpy数据分析基础之统计函数应用

Numpy统计函数实战:数据的聚合与分析

学习目标

通过本课程的学习,学员将掌握Numpy中用于统计分析的关键函数,如求和(sum)、平均值(mean)、标准差(std)等,能够熟练地在实际数据集中应用这些函数进行数据的聚合与分析。

相关知识点

Numpy中的统计函数

学习内容

1 Numpy中的统计函数

1.1 Numpy数组的创建与基本操作

在开始学习Numpy的统计函数之前,首先需要了解如何创建Numpy数组以及一些基本的操作。Numpy数组是Numpy库中最基本的数据结构,它支持高效的数值计算。Numpy数组可以是一维的,也可以是多维的,这取决于数据的需求。

1.1.1 创建Numpy数组

创建Numpy数组最简单的方法是使用numpy.array()函数,该函数接受一个列表(或列表的列表)作为输入,并返回一个Numpy数组。例如,创建一个一维数组和一个二维数组:

import numpy as np# 一维数组
one_d_array = np.array([1, 2, 3, 4, 5])
print("一维数组:", one_d_array)# 二维数组
two_d_array = np.array([[1, 2, 3], [4, 5, 6]])
print("二维数组:\n", two_d_array)
1.1.2 基本操作

Numpy数组支持多种基本操作,如索引、切片、重塑等。这些操作对于数据处理非常有用。例如,可以使用索引来访问数组中的特定元素,使用切片来获取数组的一部分,使用reshape函数来改变数组的形状。

import numpy as np
# 一维数组
one_d_array = np.array([1, 2, 3, 4, 5])
print("一维数组:", one_d_array)# 二维数组
two_d_array = np.array([[1, 2, 3], [4, 5, 6]])
print("二维数组:\n", two_d_array)# 索引
print("一维数组的第二个元素:", one_d_array[1])# 切片
print("一维数组的前三个元素:", one_d_array[:3])# 重塑
reshaped_array = two_d_array.reshape(3, 2)
print("重塑后的二维数组:\n", reshaped_array)
1.2 统计函数:sum, mean, std

Numpy提供了多种统计函数,用于对数组中的数据进行聚合和分析。这些函数包括求和(sum)、平均值(mean)、标准差(std)等,它们可以帮助人们快速了解数据的分布情况。

1.2.1 求和(sum)

sum函数用于计算数组中所有元素的总和。对于多维数组,可以通过指定axis参数来控制沿着哪个轴进行求和。

import numpy as np
# 一维数组
one_d_array = np.array([1, 2, 3, 4, 5])# 二维数组
two_d_array = np.array([[1, 2, 3], [4, 5, 6]])# 一维数组求和
print("一维数组的总和:", one_d_array.sum())# 二维数组求和
print("二维数组的总和:", two_d_array.sum())
print("二维数组沿第一轴求和:\n", two_d_array.sum(axis=0))
print("二维数组沿第二轴求和:\n", two_d_array.sum(axis=1))
1.2.2 平均值(mean)

mean函数用于计算数组中所有元素的平均值。同样,对于多维数组,可以通过指定axis参数来控制沿着哪个轴计算平均值。

import numpy as np# 一维数组
one_d_array = np.array([1, 2, 3, 4, 5])# 二维数组
two_d_array = np.array([[1, 2, 3], [4, 5, 6]])# 一维数组平均值
print("一维数组的平均值:", one_d_array.mean())# 二维数组平均值
print("二维数组的平均值:", two_d_array.mean())
# 沿着水平轴线压缩
print("二维数组沿第一轴的平均值:\n", two_d_array.mean(axis=0))
# 沿着竖直轴线压缩
print("二维数组沿第二轴的平均值:\n", two_d_array.mean(axis=1))
1.2.3 标准差(std)

std函数用于计算数组中所有元素的标准差,标准差是衡量数据分布离散程度的一个重要指标。对于多维数组,同样可以通过指定axis参数来控制沿着哪个轴计算标准差。

import numpy as np
# 一维数组
one_d_array = np.array([1, 2, 3, 4, 5])# 二维数组
two_d_array = np.array([[1, 2, 3], [4, 5, 6]])# 一维数组标准差
print("一维数组的标准差:", one_d_array.std())# 二维数组标准差
print("二维数组的标准差:", two_d_array.std())
print("二维数组沿第一轴的标准差:\n", two_d_array.std(axis=0))
print("二维数组沿第二轴的标准差:\n", two_d_array.std(axis=1))
1.3 数据聚合与分析

在实际的数据分析中,经常需要对数据进行聚合和分析,以提取有用的信息。Numpy的统计函数提供了强大的工具,使得这些操作变得简单而高效。

1.3.1 数据聚合

数据聚合是指将数据集中的多个值合并成一个或几个值的过程。在Numpy中,可以通过使用sum、mean、std等函数来实现数据的聚合。例如,假设有一个包含多个学生考试成绩的数据集,则可以通过计算平均分来了解整体的学术表现。

import numpy as np
# 假设有一个包含多个学生考试成绩的数据集
scores = np.array([85, 92, 78, 90, 88, 95, 80, 85, 92, 88])# 计算平均分
average_score = scores.mean()
print("平均分:", average_score)# 计算标准差
std_deviation = scores.std()
print("标准差:", std_deviation)
1.3.2 数据分析

数据分析是指通过统计方法来探索数据的特征和模式。在Numpy中,可以通过使用统计函数来分析数据的分布情况,例如,计算数据的最小值、最大值、中位数等。

import numpy as np# 假设有一个包含多个学生考试成绩的数据集
scores = np.array([85, 92, 78, 90, 88, 95, 80, 85, 92, 88])# 计算最小值
min_score = scores.min()
print("最低分:", min_score)# 计算最大值
max_score = scores.max()
print("最高分:", max_score)# 计算中位数
median_score = np.median(scores)
print("中位数:", median_score)

通过本课程的学习,学员将能够熟练地使用Numpy的统计函数进行数据的聚合与分析,为更复杂的数据科学任务打下坚实的基础。

http://www.lryc.cn/news/613037.html

相关文章:

  • 理清C语言中动态内存管理相关函数
  • 思科设备密码恢复方法
  • 使用Puppeteer轻松自动化浏览器操作
  • Axure安装教程(附安装包)Axure RP 10下载详细安装图文教程
  • 用LaTeX优化FPGA开发:结合符号计算与Vivado工具链
  • C++高频知识点(十五)
  • 解决chrome下载crx文件被自动删除,加载未打包的扩展程序时提示“无法安装扩展程序,因为它使用了不受支持的清单版本解决方案”
  • 《算法导论》第 10 章 - 基本数据结构
  • 深入探索C++模板实现的单例模式:通用与线程安全的完美结合
  • 小程序省市级联组件使用
  • Linux机器可直接使用的自动化编译文件
  • [论文阅读] 人工智能 + 软件工程 | 大型语言模型与静态代码分析工具:漏洞检测能力大比拼
  • 专题:2025财务转型与AI赋能数字化报告|附30+份报告PDF汇总下载
  • 计算机视觉第一课opencv(一)保姆级教学
  • 水下管道巡检机器人cad【10张】三维图+设计说明书
  • 主流小程序 SaaS 平台测评,2025年小程序开发避坑指南
  • 本地组策略编辑器无法打开(gpedit.msc命令异常)
  • Spring Boot整合PyTorch Pruning工具链,模型瘦身手术
  • 29-数据仓库与Apache Hive-创建库、创建表
  • 2025世界机器人大会开幕在即,英伟达/微美全息前瞻聚焦深化场景实践布局!
  • 实时3D可视化软件加速设计审核流程
  • 通过减少回表和增加冗余字段,优化SQL查询效率
  • 从Web2.0到Web3.0——用户体验如何演进
  • 基于Matlab融合深度学习的视频电梯乘客人数检测平台研究
  • Web3.0引领互联网未来,助力安全防护升级
  • 【RabbitMQ面试精讲 Day 13】HAProxy与负载均衡配置
  • OpenCV入门:图像处理基础教程
  • 在开发板上画出一个2048棋盘的矩阵
  • Docker Buildx最佳实践:多架构镜像构建指南
  • P8250 交友问题