当前位置: 首页 > news >正文

1TB文本的实时全文检索系统搭建

1个T的文本是多大呢?1TB = 1000GB,1GB是10亿,1TB就是1万亿字节。如果是英文字符,1TB文本就是1万亿个英文字符,如果是中文字符而且都是UTF8格式,1个中文字符占3个字节,1TB文本是3333亿中文字符,相当于1亿篇3300字的文章。

现在要对1TB文本进行实时全文检索,希望检索任何内容都能实时返回(要达到毫秒级响应才能成为实时),需要什么样的服务器配置呢?需要服务器集群吗?

是否需要服务器集群一是看数据量,二是看访问量。

不考虑访问量,仅从数据量上考虑,1TB文本的实时全文检索系统是不需要服务器集群的,普通单机双路服务器即可支持2000在线用户的实时搜索。

服务器配置:普通双路服务器
硬盘:Intel p4510 8T SSD
内存:3T(满配)

软件系统:
Ubuntu 22.04
搜索引擎:最常见的是ElasticSearch,是java系统,还需要配置java及jvm,这里采用了小唐搜索引擎,c++开发的,安装简单,什么依赖都不需要。

文本数据:
CodeParrot数据集(该数据集采集自github),123万个项目,1.15亿个代码文件
Android 13源代码
OpenHarmony鸿蒙源代码
总文本量接近1T,基本上是英文。

为了达到实时搜索,文本内容及索引需要进入内存,需要修改linux的默认的max locked memory,默认是不会有那么大的:
sudo nano /etc/security/limits.conf
加上两行
* soft memlock 3072000000
* hard memlock 3072000000
这就把可锁定内存扩大到3T,硬盘内容可以常驻内存了。

系统上线: www.tanglib.com 源代码全文检索

经过实测,系统响应基本上在毫秒级,达到了实时搜索要求。

http://www.lryc.cn/news/92087.html

相关文章:

  • RHCA---DO477---变量实验
  • 毕业生高频常用材料线上签,高校毕业季契约锁电子签章一站式助力
  • .ini配置文件介绍与解析库使用
  • 牛客网Linux错题七
  • 牛课刷题Day5(编程题)
  • javascript基础二十五:说说你对函数式编程的理解?优缺点?
  • 常见JavaScript加密算法、JS加密算法
  • 题解2023.6.5
  • 与声音计算研究相关的挑战赛——DCASE和L3DAS
  • 实训总结-----Scrapy爬虫
  • 前端开发职业规划指南:如何做好职业规划与发展
  • 创业第一步:如何写好商业计划书
  • 【Linux驱动】字符设备驱动相关宏 / 函数介绍(module_init、register_chrdev)
  • axios解决跨域问题
  • R语言作图——热图聚类及其聚类结果输出
  • Tomcat优化
  • 我的GIT练习TWO
  • 个人器件库整理
  • javascript——内存管理
  • Qt5.15.2安卓Android项目开发环境配置
  • 第四十三章 弹跳训练2(灵识扫描)
  • 【location对象的方法,history对象,navigator--BOM】
  • 论文笔记:Normalizing Flows for Probabilistic Modeling and Inference
  • java 异常类介绍
  • shiro 550 反序列化rce
  • 【C++】---模板初阶(超详练气篇)
  • windows系统典型漏洞分析
  • WPF开发txt阅读器:需求分析和文件读写
  • C++服务器框架开发9——日志系统LogFormatter_4/各个类的关系梳理/std::function/std::get
  • arm平台上的MNN编译与运行