大概搜索引擎的原理都了解过,自己也写过小型化的玩具搜索。
有几个问题一直没法了解,搜索也不知道关键词 /搜不到结果,还请大家赐教(暂时拿百度举例子)
①关于新词搜索,热门词会提前做缓存结果我了解,但是比如一个很少有人搜的词汇,百度难道是在请求时遍历自己的整个抓取库吗?比如我现在搜索一个『 JEHWUWB 』这是一个从来没有出现过的乱码词汇,难道会在请求时对整个百度的抓取库进行搜索吗?感觉百度抓取的数据应该量也不小于 1T 吧,怎么响应大量的新词搜索呢?
②关于蜘蛛抓取量,百度之类是会抓历史页面的,比如一个网页 1 天更新一次,对于百度搜索引擎内部的数据库存,会每一次抓取都会留档吗?这样的话,是不是要远大于源站原页面(几十倍)的空间来储存呢?
③关于权重,每个搜索结果都有数万个站点,对于不同结果不同的站点权重还是不一样的(比如搜血管的时候,医学网站的权重肯定要比新浪高,搜其他的时候可能反过来)这种权重表对于新词搜索的时候,是重新维护一次吗?如何去确认一个新词的时候,下面结果列表的排序呢