当前位置: 首页 > news >正文

用一个简单的例子说明单细胞分析中的dgCMatrix数据的结构

dgCMatrix用来存储矩阵的一种数据格式,这种数据格式很适合存储稀疏矩阵(即矩阵中大部分值为0)。dgCMatrix使用三个数组(分别是i,p,x)来存储矩阵。怎么存的呢?

先举一个普通矩阵的例子:

3 0 0
0 4 0
8 0 5
0 6 0

如果要把它转换成dgCMatrix格式,搞清楚对应的i,p,x值就行了。

x是存储矩阵中所有的非零值按从上到下,从左往右的顺序的排列。对于上面这个例子:

x = 3, 8, 4, 6, 5

i则存储了这些非零值对应的行索引,并且顺序与x一一对应。值得注意的是,行号是从0开始的,所以3在第0行,8在第2行,因此i数组应该是:

i = 0, 2, 1, 3, 2

p这个数组稍微复杂,它是存储了当前列前面所有非零值的总数。
第一列前面没有,所以p[1]是0。
第二列前面共有2个,分别是3和8,所以p[2]是2;
第三列前面共有4个,即3,8,4,6,所以p[3]是4;
此外,虽然没有第四列,但p在最后仍然会有一个p[4],也就是虚拟的“第四列”前面的所有非零值总数,当然也就是整个矩阵中所有非零值的数量,即p[4]=5。综上,p的值为:

p = 0, 2, 4, 5

视野拓展

你可能会发现,按照这种方式,p的第一个值永远都是0。并且,“当前列前面所有的非零值”这种表述实在是违反直觉。这其实是因为dgCMatrix这种存储方式,最早并不是在R语言中使用的。而在其他很多编程语言中,数组下标都是从0开始,这样的话,p的第一个值为0,就可以让数组下标刚好与矩阵列的下标对应,从而便于理解p了:例如p[4]就代表前4列所有非零值的数量。然而R语言的数组下标是从1开始的,这样的话,p的第一个值被0占据后,所有的数组下标就与实际的矩阵列号错开了。这样的话,R在最开始创建dgCMatrix的时候应该考虑将p的第一位0去掉,从而让R中的p下标数与矩阵列号对应。

http://www.lryc.cn/news/277213.html

相关文章:

  • 【小工具】pixi-live2d-display,直接可用的live2d的交互网页/桌面应用
  • vulhub中的Nginx漏洞的详细解析
  • 如何实现公网访问GeoServe Web管理界面共享空间地理信息【内网穿透】
  • k8s-存储 11
  • 蓝牙信标定位原理
  • 单片机期末复习
  • springboot虹软人脸识别集成
  • Element+vue3.0 tabel合并单元格span-method
  • Python学习笔记第七十九天(OpenCV轨迹栏)
  • uniapp自定义顶部导航并解决打包成apk后getMenuButtonBoundingClientRect方法失效问题
  • C++入门【26-C++ Null 指针】
  • Linux第14步_安装FTP服务器
  • Linux截图方法推荐
  • 在Gitee上维护Erpnext源
  • 2024.1.9 基于 Jedis 通过 Java 客户端连接 Redis 服务器
  • 软件测试|SQL ORDER BY排序利器使用
  • 苹果手机IOS软件应用IPA砸壳包提取完整教程
  • 「 网络安全术语解读 」内容安全策略CSP详解
  • Docker与微服务实战(基础篇)
  • 「实用分享」如何用Telerik UI组件创建可扩展的企业级WPF应用?
  • 【Docker基础三】Docker安装Redis
  • 【Flink精讲】Flink数据延迟处理
  • vue项目心得(复盘)
  • Linux——firewalld防火墙(一)
  • JMeter之Windows安装
  • 用通俗易懂的方式讲解:大模型 RAG 在 LangChain 中的应用实战
  • 正则表达式的语法
  • MyBatis分页插件的实现原理
  • Winform、WPF如何解决前端卡死问题
  • python内app自动化测试的局限性,该如何破局?