当前位置: 首页 > article >正文

openssl-aes-ctr使用openmp加速

openssl-aes-ctr使用openmp加速

  • openssl-aes-ctr
  • openmp omp for

openssl-aes-ctr

本文采用openssl-1.1.1w进行开发验证开发;因为aes-ctr加解密模式中,不依赖与上一个模块的加/解密的内容,所以对于aes-ctr加解密模式是比较适合进行并行加速的算法。
其代码如下

void CRYPTO_ctr128_encrypt(const unsigned char *in, unsigned char *out,size_t len, const void *key,unsigned char ivec[16],unsigned char ecount_buf[16], unsigned int *num,block128_f block) {...while (len >= 16) {(*block) (ivec, ecount_buf, key);	   // encryptctr128_inc_aligned(ivec);				// ivec = ivec + 1for (n = 0; n < 16; n += sizeof(size_t))  // out = in ^ ecount_buf*(size_t_aX *)(out + n) =*(size_t_aX *)(in + n)^ *(size_t_aX *)(ecount_buf + n);len -= 16;out += 16;in += 16;n = 0;}...}

在这里插入图片描述

从代码不难看出,每层循环,以16字节为一组进行加密;组与组之间不存在关联,下一组变更的只有ivec,所以对其进行加速处理,可以考虑并行处理的方式进行并行处理。

可以提前计算好ivec,ivec+1,ivec+2,…,ivec+255;此处因为单次加解密的长度是4096,所以函数内最长为256组会在一次函数调用中进行加解密。

openmp omp for

参考OpenMP并行编程
使用#pragma omp parallel for 对加密过程进行并行加速处理,处理过程中,在进入for循环前,首先将ivec的值都计算好

int loop = len / 16;
unsigned char * new_ivec[4096]; // 此处有待优化,实际调用长度可能会超过4096
memcpy(new_ivec, ivec, 16);
for (int i = 1; i < loop; i++) {memcpy(new_ivec + 16*i, new_ivec + 16*i - 16, 16);ctr128_inc_aligned(new_ivec + 16*i);
}

然后就是对分组进行并行加密处理

#pragma omp parallel for num_threads (16) private(n)
for (int i = 0; i < loop; i++) {unsigned char current_ecount_buf[16] = {0};(*block) (new_ivec + 16*i, current_ecount_buf, key);unsigned char * current_in = in + 16*i;unsigned char * current_out = out + 16*i;for (n = 0; n < 16; n += sizeof(size_t))*(size_t_aX *)(current_out + n) =*(size_t_aX *)(current_in + n)^ *(size_t_aX *)(current_ecount_buf + n);}

修改过后的函数如下:

void CRYPTO_ctr128m_encrypt(const unsigned char *in, unsigned char *out,size_t len, const void *key,unsigned char ivec[16],unsigned char ecount_buf[16], unsigned int *num,block128_f block)
{unsigned int n;size_t l = 0;n = *num;#if !defined(OPENSSL_SMALL_FOOTPRINT)if (16 % sizeof(size_t) == 0) { /* always true actually */do {while (n && len) {*(out++) = *(in++) ^ ecount_buf[n];--len;n = (n + 1) % 16;}# if defined(STRICT_ALIGNMENT)if (((size_t)in | (size_t)out | (size_t)ecount_buf)% sizeof(size_t) != 0)break;
# endifint loop = len / 16;unsigned char * new_ivec[4096];memcpy(new_ivec, ivec, 16);for (int i = 1; i < loop; i++) {memcpy(new_ivec + 16*i, new_ivec + 16*i - 16, 16);ctr128_inc_aligned(new_ivec + 16*i);}#pragma omp parallel for num_threads (16) private(n)for (int i = 0; i < loop; i++) {unsigned char current_ecount_buf[16] = {0};(*block) (new_ivec + 16*i, current_ecount_buf, key);unsigned char * current_in = in + 16*i;unsigned char * current_out = out + 16*i;for (n = 0; n < 16; n += sizeof(size_t))*(size_t_aX *)(current_out + n) =*(size_t_aX *)(current_in + n)^ *(size_t_aX *)(current_ecount_buf + n);}len -= loop * 16;out += loop * 16;in += loop * 16;n = 0;if (len) {(*block) (ivec, ecount_buf, key);ctr128_inc_aligned(ivec);while (len--) {out[n] = in[n] ^ ecount_buf[n];++n;}}*num = n;return;} while (0);}/* the rest would be commonly eliminated by x86* compiler */
#endifwhile (l < len) {if (n == 0) {(*block) (ivec, ecount_buf, key);ctr128_inc(ivec);}out[l] = in[l] ^ ecount_buf[n];++l;n = (n + 1) % 16;}*num = n;
}

经过以上处理后,需要进行测试,本文采用给openssl,增加enc子命令的方式进行处理,通过增加aria-128-ctrm的方式,而后进行测试验证。
从测试结果看,确实能提高一定的性能,但效果不是很显著,大概可能和加解密时长,占openssl enc整个命令调用时长的占比不是很高,所以没有显著的性能提升。
尽管效果不是很明显,也算是针对openmp和openssl-aes-ctr的一次结合应用。

http://www.lryc.cn/news/2395429.html

相关文章:

  • PHP+MySQL开发语言 在线下单订水送水小程序源码及搭建指南
  • 计算机网络第1章(上):网络组成与三种交换方式全解析
  • Android studio进阶开发(七)---做一个完整的登录系统(前后端连接)
  • 计算机网络第1章(下):网络性能指标与分层模型全面解析
  • 恶意软件清理工具,让Mac电脑安全更简单
  • HackMyVM-Jabita
  • 112 Gbps 及以上串行链路的有效链路均衡
  • Mac 版不能连接华为 GaussDB 吗?我看 Windows 版可以连接?
  • Python-13(永久存储)
  • 《关于有序推动绿电直连发展有关事项的通知》核心内容
  • 数据结构-排序(1)
  • 记录一次session安装应用recyclerview更新数据的bug
  • 大数据-274 Spark MLib - 基础介绍 机器学习算法 剪枝 后剪枝 ID3 C4.5 CART
  • 力扣面试150题--二叉树的锯齿形层序遍历
  • 如何在 CentOS / RHEL 上修改 MySQL 默认数据目录 ?
  • 网页前端开发(基础进阶2)
  • 简历制作要精而不简
  • SPA-RL:通过Stepwise Progress Attribution训练LLM智能体
  • 【深度学习】9. CNN性能提升-轻量化模型专辑:SqueezeNet / MobileNet / ShuffleNet / EfficientNet
  • Relational Algebra(数据库关系代数)
  • 【C/C++】面试常考题目
  • Chorme如何对于youtube视频进行画中画背景播放?
  • 017搜索之深度优先搜索——算法备赛
  • 从单机到集群,再到分布式,再到微服务
  • 关于ios点击分享自动复制到粘贴板的问题
  • Hive的JOIN操作如何优化?
  • React Native 实现抖音式图片滑动切换浏览组件-媲美抖音体验的滑动式流畅预览组件
  • 睿抗机器人开发者大赛CAIP-编程技能赛-历年真题 解题报告汇总 | 珂学家
  • 【c++】【数据结构】AVL树
  • 【原神 × 插入排序】刷圣遗物也讲算法:圣遗物评分系统背后的排序逻辑你真的懂吗?