查看: 1207|回复: 4
收起左侧

[其他] 谷歌的秘密 图解搜索巨人背后的技术神话

[复制链接]
健康水卡
发表于 2013-11-15 16:11:27 | 显示全部楼层 |阅读模式
之前编辑有篇关于twitter的新闻,网友充分发挥了我朝子民幽默搞笑的传统美德,纷纷站出来表示,这世界上只有微博没有推特,并义正词严的谴责了编辑的不负责任与无中生有。原先编辑打算再接再厉的继续做关于“推特”信息业务流的技术性科普文档,现在看来编辑确实不能自绝于天朝自绝于人民的道路上越走越远,这个选题也就作罢了。
  本着见死不救落井下石的精神,今天编辑打算向各位详细的介绍下,另一个原本存在但现在不存在了的网站:谷歌,继续向各位天朝子民介绍下,这不存在的谷歌是怎么的在编辑工作时提供技术文档,又怎么在编辑娱乐时提供爱情动作片的,欢迎各位网友们继续谴责。
  谷歌(Google),一个非常成功,但又十分神秘,而且带有几分理想化色彩的互联网搜索巨人,哦!对了,它还是一家相当了不起的广告公司,谷歌首页上的那个搜索按钮是其年赢利200亿美元的杀手级应用,也是Internet首屈一指的商业和技术神话。近日国外一家网站(PPCblog)精心绘制了一张谷歌搜索流程图,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。
  互联网上的内容如何被谷歌找到?什么样的内容会被收录?在你点击了搜索按钮之后到看到搜索结果这不足1秒钟的时间内,它又做了什么?想必大家一定都想知道谷歌搜索按钮背后的秘密吧。别急,开始之前我们先来看一下神秘的谷歌数据中心。
神秘的谷歌数据中心
  谷歌的数据中心高度机密,我们所能得到的信息十分有限。我们先来看几个数据:谷歌在美国本土的数据中心有19个以上,另有17个分布在美国以外的世界各地;每个数据中心有50万平方英尺(46450平方米),建造一个数据中心要花费约6亿美元;谷歌的数据中心是世界上最高效的设施之一,非常环保;数据中心使用50-100兆瓦的电力,考虑到冷却问题,通常建在便于用水的地方;谷歌的服务器被安置在标准的海运集装箱中,每个集装箱可容纳1160台服务器。关于谷歌的数据中心,我们就只知道这么多了。
  谷歌拥有的数十万台服务器都是自己设计的,它们认为这是公司的核心技术之一。每台服务器都配有一颗12伏电池,确保万一主电源断电时还可持续供电。
  至于为什么为每台服务器配备电池,谷歌的回答是成本。一般数据中心多依赖UPS(不间断电源系统),这基本上算是大电池,会在主电力失效而发电机还来不及启动时暂时协助供电。而谷歌认为直接把电力内建到服务器更便宜,而且成本能直接跟服务器数量相符合,如此便不会浪费多余的容量。另一个原因是效率,大型UPS可达92-95%的效率,这意味着许多电力还是被浪费掉了,但谷歌采用的内建电池作法效率超过99.9%。
谷歌如何找到并收录你上传的内容?
  谷歌使用它的“爬虫”工具在一刻不停地周游互联网世界的每一个角落。上图中间的6个步骤依次描绘了从内容出现在互联网上到内容被收录进谷歌的数据库供用户检索这一过程,其中第2、3、5步又有许多分支,所有这些都是为了建立一个信息“集汇池”,这是第一个阶段的工作,第二个阶段才是从这个“池”中为用户筛选他们所需要的内容。接下来我们一步步看谷歌是如何搜集并整合信息的。
  1、网友上传内容,比如博客、微博或其它类型的WEB内容被更新到网上。
  2、Google的“爬虫”发现了这一更新。在这一步,谷歌加入了许多判断机制,主要包括以下几点:
  2.1、Google的“爬虫”沿着链接路径(URL)周游互联网,但如果没有URL指向某一站点,则这一站点将不会被索引。
  2.2、如果你在robots.txt中设置了不许索引(部分或全部),Google的“爬虫”将不会抓取你站点上的相应内容。
  2.3、如果指向你站点的连接上有nofollow标签,Google的“爬虫” 将不会从这些URL路径来到你的站点。如下图:
  URL就像是Google“爬虫”周游互联网时的路标,谷歌当然希望收录有价值的网页,所以必须采取一种机制分辨哪些URL是垃圾信息,nofollow标签正是谷歌所倡导的方法之一。网站的合法更新人员几乎不会上传垃圾URL,但它们往往大量出现在评论跟帖和论坛中,就像上图中的例子,这些URL对于谷歌来讲是没有意义的,为了防止“爬虫”经由这些URL达某一站点,在源代码中它们都会自动被加上nofollow标签。
  2.4、Google也能通过blog软件或xml站点地图找到你的网站。
  2.5、从权威性越高的网站链接到你网站的URL越多,你的网站的权威性也就越高,但Google“爬虫”始终会忽略被加上了nofollow标签的URL。
  上面这几点大概就是谷歌在收录信息时对内容提出的“准入”要求,看来在一些开放的地方(比如论坛)大量发布URL以求让谷歌关注,这一小伎俩是没有什么效果的。
清风吹过
头像被屏蔽
发表于 2013-11-15 16:28:27 | 显示全部楼层
一个很有信用的公司。google的宗旨是什么来着?还有他的开创历史?
wuweizi
发表于 2013-11-15 16:30:40 | 显示全部楼层
本帖最后由 wuweizi 于 2013-11-15 16:32 编辑

图解??没看到图啊


-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA256

图解??没看到图啊
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.15 (MingW32) - WinPT 0.9.92

iF4EAREIAAYFAlKF2/kACgkQYS0zQNynVCuHnwD/cpQUpsR3BKoShb+FI6i6hCXd
IdnLEwZVlj8sYz0LYKwA/1RNa+ugMknYt6561xW61dBprWolPkAGv/RjPUSzDkLd
=B2Gg
-----END PGP SIGNATURE-----
蓝色天气
发表于 2013-11-15 19:22:58 | 显示全部楼层
强大的google
sss4sday
发表于 2013-11-15 21:07:24 | 显示全部楼层
清风吹过 发表于 2013-11-15 16:28
一个很有信用的公司。google的宗旨是什么来着?还有他的开创历史?

永不作恶好像
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

手机版|杀毒软件|软件论坛| 卡饭论坛

Copyright © KaFan  KaFan.cn All Rights Reserved.

Powered by Discuz! X3.4( 沪ICP备2020031077号-2 ) GMT+8, 2025-1-16 16:09 , Processed in 0.125666 second(s), 16 queries .

卡饭网所发布的一切软件、样本、工具、文章等仅限用于学习和研究,不得将上述内容用于商业或者其他非法用途,否则产生的一切后果自负,本站信息来自网络,版权争议问题与本站无关,您必须在下载后的24小时之内从您的电脑中彻底删除上述信息,如有问题请通过邮件与我们联系。

快速回复 客服 返回顶部 返回列表