当前位置: 首页 > news >正文

mojo实现高阶函数(algorithm)

functional

实现高阶函数。

您可以从 algorithm 包导入这些 API。例如:

from algorithm import map

别名:

  • Static1DTileUnitFunc = fn[Int](Int, /) capturing -> None: Signature of a 1d tiled function that performs some work with a static tile size and an offset. i.e. func<tile_size: Int> (offset: Int)

  • Dynamic1DTileUnitFunc = fn(Int, Int, /) capturing -> None: Signature of a 1d tiled function that performs some work with a dynamic tile size and an offset. i.e. func(offset: Int, tile_size: Int)

  • BinaryTile1DTileUnitFunc = fn[Int](Int, Int, /) capturing -> None: Signature of a tiled function that performs some work with a dynamic tile size and a secondary static tile size.

  • Static2DTileUnitFunc = fn[Int, Int](Int, Int, /) capturing -> None: Signature of a 2d tiled function that performs some work with a static tile size and an offset. i.e. func<tile_size_x: Int, tile_size_y: Int> (offset_x: Int, offset_y: Int)

  • SwitchedFunction = fn[Bool]() capturing -> None

  • SwitchedFunction2 = fn[Bool, Bool]() capturing -> None

  • Static1DTileUnswitchUnitFunc = fn[Int, Bool](Int, Int, /) capturing -> None: Signature of a tiled function that performs some work with a static tile size and an offset. i.e. func<tile_size: Int> (offset: Int)

  • Static1DTileUnitFuncWithFlag = fn[Int, Bool](Int, /) capturing -> None

  • Dynamic1DTileUnswitchUnitFunc = fn[Bool](Int, Int, Int, /) capturing -> None

  • Static1DTileUnitFuncWithFlags = fn[Int, Bool, Bool](Int, /) capturing -> None

map

map[func: fn(Int, /) capturing -> None](size: Int)

将函数映射到从0到size的范围上。

Parameters:

  • func (fn(Int, /) capturing -> None):要映射的函数。

Args:

  • size (Int):元素的数量。

vectorize

vectorize[func: fn[Int](Int, /) capturing -> None, simd_width: Int, unroll_factor: Int](size: Int)

通过在 0 到 的范围内映射函数并在每一步size递增 来简化 SIMD 优化循环simd_width。其余部分size % simd_width将在单独的迭代中运行。

下面的示例演示了如何通过使用计算机上的 SIMD 寄存器同时设置多个值来提高循环的性能:

from algorithm.functional import vectorize# The amount of elements to loop through
alias size = 10
# How many Dtype.int32 elements fit into the SIMD register (4 on 128bit)
alias simd_width = simdwidthof[DType.int32]()fn main():var p = DTypePointer[DType.int32].alloc(size)# @parameter allows the closure to capture the `p` pointer@parameterfn closure[simd_width: Int](i: Int):print("storing", simd_width, "els at pos", i)p.store[width=simd_width](i, i)vectorize[closure, simd_width](size)print(p.load[width=size]())

在 SIMD 寄存器大小为 128 的机器上,这将在每次迭代时设置 4xInt32 值。 10 % 4 的余数为 2,因此最后两个元素将在两次单独的迭代中设置:

storing 4 els at pos 0
storing 4 els at pos 4
storing 1 els at pos 8
storing 1 els at pos 9
[0, 0, 0, 0, 4, 4, 4, 4, 8, 9]

您还可以展开循环以潜在地提高性能,但代价是二进制大小:

vectorize[closure, width, unroll_factor=2](size)

在生成的程序集中,函数调用将被重复,从而导致算术、比较和条件跳转操作减少。程序集在伪代码中看起来像这样:

closure[4](0)
closure[4](4)
# Remainder loop won't unroll unless `size` is passed as a parameter
for i in range(8, 10):closure[1](i)closure[1](i)

size如果已知编译时间可以减少剩余部分的迭代,则可以将其作为参数传递。仅当余数是 2 的指数 (2, 4, 8, 16, …) 时才会发生这种情况。如果不是 2 的指数,余数循环仍会展开以提高性能。

Parameters:

  • func ( fn[Int](Int, /) capturing -> None):将在循环体中调用的函数。
  • ​simd _ width ( Int):SIMD向量宽度。
  • ​unroll_factor ( Int):主循环的展开因子(默认 1 )****。

Args:

  • ​size ( Int): 循环的上限。

vectorize[func: fn[Int](Int, /) capturing -> None, simd_width: Int, size: Int, unroll_factor: Int]()

通过在 0 到 的范围内映射函数并在每一步size递增 来简化 SIMD 优化循环simd_widthsize % simd_width如果它是 2 的指数,则其余部分将在单次迭代中运行。

下面的示例演示了如何通过使用计算机上的 SIMD 寄存器同时设置多个值来提高循环的性能:

from algorithm.functional import vectorize# The amount of elements to 
http://www.lryc.cn/news/421785.html

相关文章:

  • 先进制造aps专题二十四 云平台排产aps的方案设计
  • JavaScript 逆向技巧总结
  • linux反向代理原理:帮助用户更好地优化网络架构
  • 开源DevOps工具链管理:DevStream
  • 图数据库框架及其支持的开发语言和应用场景
  • 【Linux 18】核心转储
  • 远程传输文件至服务器—spc 传输
  • HarmonyOS.FA开发流程
  • 三级_网络技术_21_无线局域网设备安装与调试
  • 机械学习—零基础学习日志(项目实践01)
  • SpringBoot排除默认日志框架
  • 质量管理理论(至简)
  • kaggle中访问本地上传的图片(找到图片地址)
  • ChatGPT到底是什么?它能做到什么?我们怎么才能使用到
  • 浦科特M6S固态硬盘数据丢失与恢复:全方位指南
  • gdb: 编译,lzma,configure: error: missing liblzma for --with-lzma
  • LInux - 一文了解 ssh端口敲门knock
  • Java面试篇(线程池相关专题)
  • git推送错误-->远程分支比本地的分支更新,无法直接推送
  • 【三维重建】SpotlessSplats:去除瞬态干扰物的三维高斯喷溅(3DGS)
  • 28. 找出字符串中第一个匹配项的下标【 力扣(LeetCode) 】
  • 邀请函 I 松下信息和望繁信科技邀您参加「数智时代下大数据应用的“道”与“术”」闭门会议
  • Node.js中的fs.watchFile与fs.unwatchFile:文件监控与取消监控
  • Hadoop大集群配置文档-粗略版-3万字长文 (包括hive,zookeeper,hbase,flume等中间件和mysql等)
  • 原生html+js播放flv直播视频流【vue等皆可用】
  • 初学java第一天:写一下熟悉的猜数字小游戏
  • 【C++】如何判断类型
  • 让一切发生皆有利于我,在人生的长河中,我们常常面临诸多的不确定性和变化
  • 腾讯云AI代码助手:智能AI代码助手 ,新一代的高效代码开发辅助工具
  • C#:索引器 集合初始化器 事件访问器 枚举器 迭代器