当前位置：首页 > news >正文

搜索引擎-03-搜索引擎原理

news 2025/8/28 11:46:51

拓展阅读

搜索引擎-01-概览

搜索引擎-02-分词与全文索引

搜索引擎-03-搜索引擎原理

Crawl htmlunit 模拟浏览器动态 js 爬虫入门使用简介

Crawl jsoup 爬虫使用 jsoup 无法抓取动态 js 生成的内容

Crawl WebMagic 爬虫入门使用简介 webmagic

全网搜索引擎架构与流程如何？

全网搜索引擎的宏观架构如上图，核心子系统主要分为三部分（粉色部分）：

（1）spider 爬虫系统；

（2）search+index: 建立索引与查询索引系统，这个系统又主要分为两部分：

一部分用于生成索引数据 build_index

一部分用于查询索引数据 search_index

（3）rank 打分排序系统；

核心数据主要分为两部分（紫色部分）：

（1）web 网页库；

（2）index 索引数据；

全网搜索引擎的业务特点决定了，这是一个“写入”和“检索”分离的系统

如何写入

系统组成：由spider与search+index;两个系统完成。

输入：站长们生成的互联网网页。

输出：正排倒排索引数据。

流程：如架构图中的1，2，3，4：

（1）spider把互联网网页抓过来；

（2）spider把互联网网页存储到网页库中（这个对存储的要求很高，要存储几乎整个“万维网”的镜像）；

（3）build_index从网页库中读取数据，完成分词；

（4）build_index生成倒排索引；

如何建立索引

系统组成：由search+index;与rank两个系统完成。

输入：用户的搜索词。

输出：排好序的第一页检索结果。

流程：如架构图中的a，b，c，d：

（a）search_index获得用户的搜索词，完成分词；

（b）search_index查询倒排索引，获得“字符匹配”网页，这是初筛的结果；

（c）rank对初筛的结果进行打分排序；

（d）rank对排序后的第一页结果返回；

http://www.lryc.cn/news/331883.html

相关文章：

mysql语句学习

【Apache Doris】周FAQ集锦：第 1 期

Windows创建远程线程学习

使用c语言libexpat开源库解析XML数据

51单片机入门_江协科技_19~20_OB记录的笔记

基于k8s的高性能综合web服务器搭建

Folder Icons for Mac v1.8 激活版文件夹个性化图标修改软件

Gitee上传私有仓库

第14章数据结构与集合源码

分享react+three.js展示温湿度采集终端

易宝OA ExecuteSqlForDataSet SQL注入漏洞复现

C++语言学习（二）——⭐缺省参数、函数重载、引用

qt通过setProperty设置样式表笔记

Sora文本生成视频（附免费的专属提示词）

Flask Python:数据库多条件查询,flask中模型关联

Spring Security 实现后台切换用户

《QT实用小工具·一》电池电量组件

基于springboot实现墙绘产品展示交易平台管理系统项目【项目源码+论文说明】计算机毕业设计

主流公链文章整理

css3之3D转换transform

SpringBoot -- 外部化配置

优酷动漫顶梁柱！神话大乱炖的修仙番为何火爆？

每日一题：C语言经典例题之判断实数相等

【算法每日一练]-数论（保姆级教程篇1 埃氏筛，欧拉筛）

【剑指offr--C/C++】JZ59 滑动窗口的最大值

RabbitMQ Tutorial

如何对Webpack进行优化

nut-ui中的menu 菜单组件的二次封装

python笔记（11）序列