当前位置: 首页 > news >正文

搜索引擎简介

搜索引擎架构

整个搜索引擎分为三个系统

  1. 爬虫系统

  2. 索引系统

  3. 线上搜素服务

爬虫系统

爬虫分为两个阶段:

  1. 第一阶段:根据目标网站的列表页,爬对应的文档 URL

  2. 第二阶段:根据文档 URL,下载文档内容

触发器:

  • 定时任务触发

  • 消息触发

  • 管理后台手动触发某一个爬虫任务

文件服务器:

  • 存储图片和视频文件

索引系统

索引系统主要数据依赖:内容库和文件服务

依赖服务:

  1. 分词服务

  2. NLP 服务

    1. 同义词扩展

    2. 生成文档摘要

    3. 抽取文档标签

    4. 图片、文本、视频生成向量

    5. ....

  3. PageRank 服务

在线搜索服务

在线服务的主要模块:

  1. Query 理解

  2. 召回

  3. 排序

当欠召回时:

  1. 在线服务会将当前 Query 发送给离线索引系统的消息队列,让其为该 Query 完善索引数据。

  2. 索引系统收到消息后,会使用第三方搜索引擎进行检索,并且将检索的内容解析出 URL,发给爬虫系统,进行数据的补充。

  3. 如果第三方搜索引擎也没有检索到数据,可以通过 LLM 进行生成内容,将生成的内容写入 ES 索引

http://www.lryc.cn/news/445683.html

相关文章:

  • 每天认识几个maven依赖(aislib+A1TRMI+Andromda+Annogen)
  • 每日算法1(快慢指针)
  • 基于RealSense D435相机简单实现手部姿态重定向
  • Linux下搭建iSCSI共享存储-Tgt
  • js中正则表达式中【exec】用法深度解读
  • Dockerfile的详解与案例
  • [spring]用MyBatis XML操作数据库 其他查询操作 数据库连接池 mysql企业开发规范
  • [产品管理-33]:实验室技术与商业化产品的距离,实验室技术在商业化过程中要越过多少道“坎”?
  • 【有啥问啥】 Self-Play技术:强化学习中的自我进化之道
  • LCR 008. 长度最小的子数组
  • uniApp 解决uniapp三方地图获取位置接口的请求次数限制问题,分别提供 Android 和 iOS 的实现方法(原生插件获取)
  • Zabbix Agent 监控 MySQL 进程状态
  • 【模型】感知器
  • HtmlCss 基础总结(基础好了才是最能打的)五
  • 图神经网络实战——分层自注意力网络
  • 基于深度学习的数字识别系统的设计与实现(python、yolov、PyQt5)
  • ChatGPT 提取文档内容,高效制作PPT、论文
  • 3、等保1.0 与 2.0 的区别
  • Angular面试题九
  • (转载)智能指针shared_ptr从C++11到C++20
  • Ubuntu 上安装 Miniconda
  • 【Vue系列五】—Vue学习历程的知识分享!
  • CaLM 因果推理评测体系:如何让大模型更贴近人类认知水平?
  • 深入探索卷积神经网络(CNN)
  • 【C++篇】手撕 C++ string 类:从零实现到深入剖析的模拟之路
  • 毕业设计选题:基于ssm+vue+uniapp的校园失物招领小程序
  • [系统设计总结] - Proximity Service算法介绍
  • 变压吸附制氧机的应用范围
  • MATLAB绘图基础8:双变量图形绘制
  • Appium高级话题:混合应用与原生应用测试策略