当前位置: 首页 > news >正文

大数据向量检索的细节问题

背景:现有亿级别数据(条数),其文本大小约为150G,label为字符串,content为文本。用于向量检索,采用上次的试验进行,但有如下问题需要面对:

1、向量维度及所需空间

向量维度一版采用768的bert系列的模型推理得到,openai也有类似的功能,不过是2倍的维度(即1536),至于哪个好坏,都宣称自己比较好,寡人实际应用中有实践:m3e-base似乎不错。

由于faiss需要float32的小数,根据下面试验,可以发现如果直接转成np.float32数据类型的数据然后直接进行存储(txt存储,每行进行存储),那么保留小数点后8位后存储的大小约为直接存储的数据的一半大小,同时节约了磁盘大小。在运行时,因为是大数据级别的,不建议将所有向量都求出来再进行存储,那样需要很大的内存,一般机器不支持,我这里的200G+的机器都over几次了。

存储试验:

res=np.random.randn(2,768)
with open("test768.txt","w") as f :for i in range(len(res)):tmp = res[i].astype(np.float32).tolist()# tmp = [round(i,8) for i in tmp]tmp
http://www.lryc.cn/news/134617.html

相关文章:

  • 如何让智能搜索引擎更灵活、更高效?
  • C++set集合与并查集map映射,哈希表应用实例B3632 集合运算 1P1918 保龄球
  • easyexcel合并单元格底色
  • OpenCV图片校正
  • 数字孪生流域共建共享相关政策解读
  • FSC147数据集格式解析
  • el-element中el-tabs案例的使用
  • tomcat结构目录有哪些?
  • 生成式AI系列 —— DCGAN生成手写数字
  • vscode-vue项目格式化+语法检验-草稿
  • 【Java从0到1学习】10 Java常用类汇总
  • 第三届人工智能与智能制造国际研讨会(AIIM 2023)
  • 层次分析法
  • Error Handling
  • leetcode:字符串相乘(两种方法)
  • 【爬虫练习之glidedsky】爬虫-基础2
  • 03.有监督算法——决策树
  • 网络协议详解之STP
  • Eltima USB Network Gate 10.0 Crack
  • SpringCloudGateway网关实战(一)
  • django中使用ajax发送请求
  • C++之std::list<string>::iterator迭代器应用实例(一百七十九)
  • VSCode好用的插件
  • js实现滚轮滑动到底部自动加载(完整版)
  • 如何限制PDF打印?限制清晰度?
  • python计算模板图像与原图像各区域的相似度
  • 阿里云云解析DNS核心概念与应用
  • 计算机竞赛 垃圾邮件(短信)分类算法实现 机器学习 深度学习
  • compositionAPI
  • vscode配置调试环境-windows系统