查看内容

搜索引擎原理介绍

蜘蛛在对网站进行抓取时会采取两种抓取策略:广度优先策略和深度优先策略。广度优先是蜘蛛会先抓取起始网页中的所有链接后,再选择其中一个链接抓取此网页中的所有链接;深度优先就是蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路后再转入下一个起始页。而搜索引擎会混合使用这两种策略对你的网站进行抓取。

蜘蛛抓取的内容包括链接、文本、图片、视频、CSS、JS、iframe框架。而这里面css、js、iframe框架对于蜘蛛识别是不太友好的。

蜘蛛将网页进行抓取后会将其存入一个原始页面数据库中,在这里搜索引擎会进行过滤,将欺骗用户的页面(文不对题)、死链接页面(打不开的页面)、空白页面(页面没内容)、毫无价值的页面过滤,将这些页面全部都摒弃掉。而将能够满足用户需求的高质量页面保留下来。

搜索引擎过滤后留下来的高质量页面就会对其建立索引。搜索引擎建立索引时会对网站的内容分类整理;并计算链接关系,包括优质外链和垃圾外链;对特殊文件进行处理(txt文件、pdf文件、jpg文件);最后根据关键词识别存储,这样就完成了索引流程。

当索引建立完成后,用户搜索关键词就会触发搜索引擎的关键词关键库,并将符合条件的搜索结果展示到搜索结果页(SERP)。

分享: