当前位置: 首页 > article >正文

Google搜索的工作原理分析【图解】

 

Google搜索的工作原理分析【图解】

 

搜索引擎之于Google,就像Windows之于微软。如果将互联网比作一个巨大的生态系统的话,那么搜索引擎正是处于整个食物链的最上层,互联网搜索甚至已经提升到了搜索文化的高度,在少量信息的Internet上,搜索引擎是网民的罗盘,而Google是世界上迄今为止最好的捕鼠器。

PPCBlog为我们呈现了一幅Jess BachmanWallStats.com工作)精心描述的示意图,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在不到1秒的响应时间内所进行的处理。这张图片很好地描述了Google搜索背后的工作原理,解释了网页从被Google的网络蜘蛛爬取、收录、索引,最后再到用户进行一次Google搜索并产生搜索结果的过程。

如果看不到图片请点击:http://yi-it.com/blog/images/how-google-works-chinese-detail.jpg

 

 

Google搜索是如何工作的【图解】


一、Google官方对其搜索技术的叙述

我们的搜索技术的后台软件会在服务器端触发一系列执行时间不到1秒的并行计算,Google问世前的传统搜索引擎的搜索结果严重依赖于关键词在页面上出现的频度,我们使用了200多个指标信号(其中包括我们拥有专利的PageRank页面等级加权算法)用来检查万维网的链接结构(佩奇和布林最初的十法界把万维网的链接结构用略论的有向无环图来建模)并决定网页的重要程度,我们假定一个网页的重要程度取决于别的页面对它的引用,就像学术论文中的引用指数一样,重要的论文总是会被很多其他论文引用。

然后,我们再根据搜索条件进行超文本匹配分析(对蜘蛛抓取的页面内容进行关键词倒排索引检索),确定跟搜索请求最相关的网页。综合最重要的网页跟搜索请求最相关的网页两个方面,我们就能按重要程度和用户搜索请求相关程度把查询结果排序后呈现给我们的用户。

 

二、Google的数据中心

Google的数据中心高度机密,我们能了解到的不多:

1)在美国本土有19个以上的数据中心,其余17个数据中心分布在美国以外的世界各地。

2)每个数据中心有50万平方英尺那么大,建造一个数据中心要花费约6亿美元。

3Google数据中心是世界上最高效的设施之一,而且也非常环保,几乎没有碳排放。

4)数据中心使用50100兆瓦的电力,由于需要冷却,通常建在便于用水的地方。

5Google服务器安置在一个一组容得下1160台服务器的有房子那么大的标准集装箱容器中。

 

三、Google蜘蛛简介

首先先谈下Google蜘蛛起源:当Google搜索引擎刚建立之初,就拥有这一个非常强大的的服务器,其每天放出大量的蜘蛛,我们称为1号蜘蛛,其抓取量抓取速度是非常的快,对其整个互联网每天进行信息进行的采集,可见服务器的速度是多少快,其实最主要的是后期Google将服务器延伸到了很多城市,所以现在你能发现Google的运算速率是超前的快。

服务器将采集的信息分类、整理到庞大的数据库,其中有个数据库都是用来存网站域名的。域名只要被搜索引擎索引到,将自动存入此数据库,此数据库是1号蜘蛛的核心。其内部分为10PR各等级的小数据库,虽说小数据库,但也是大的可怕!10个等级的数据库其周期也不同,基本上以一个PR=4的网站来讲 1号蜘蛛爬行的概率也在7天一次。所以基本你也会发现收录有大的幅度也是在7天内的某一天。细心的站长会发现其实有时候7天还是蛮准的,但只针对PR=4。越是PR高其周期越是短,越是PR

http://www.lryc.cn/news/2416110.html

相关文章:

  • android+rom+bootloader+flash,Android ROM开发(4) bootloader 三种启动模式
  • 不要再被骗了------QQ盗号原理大揭秘
  • 8086 CPU 寄存器
  • English interview。。。
  • 探索云端创新:CF-Worker-Dir - 一分钟搭建个性化导航页
  • 【网络奇遇记】因特网基础概览
  • 【你也能从零基础学会网站开发】 Win10系统下如何完美安装SQL Server 2000+解决SysWOW64权限限制方案!
  • dos命令特殊符号
  • RedFlag桌面6.0 Linux的安装 与Nvidia GeForce Mx440兼容性问题
  • 矩形区域剪裁区域
  • Delphi多线程
  • 解决d3dcompiler_42.dll错误找不到等问题
  • context.xml
  • Fedora 19的一些配置
  • 获取Android手机CPU类型 ARM、ARMV7、NEON
  • 触摸屏介绍—电阻触摸屏+电容触摸屏
  • 模仿淘宝htmlcss源码_仿淘宝商城源码html
  • 解锁数据新世界!一网打尽最全数据统计宝藏网站
  • mysql的批量更新的语法_MySQL中的Sqlalchemy批量更新非常有效
  • 中兴盒子ZTE-B860AV1.1T、AV2.1-通刷-线刷固件
  • 国内十大源码下载类知名网站总体简评
  • Mac版R语言(四):pacman包——在R语言工程中一次性下载安装、导入多个包的方法
  • c语言通过easyx窗口实现小球打砖块的游戏
  • Office2003打开office2007文件的补丁
  • PAS启动:制台登录不了,用curl在服务器端测试没有反应,后台日志报错:Threads are going to be renewed over time to
  • http://www.baidu.com/cb.php?,存在劫持风险的第三方JS地址
  • 总结24个Python接单赚钱的平台,兼职月入5000+
  • 网页特效----HTML中树的实现方法
  • 不同网段怎么ping通_【知识积累】两个不同网段的路由器,如何互通?
  • ubuntu11.04国内源