图片展示

SEO入门:搜索引擎工作原理之预处理

发表时间: 2021-03-24 16:42:35

上一篇文章说到搜索引擎网页收集的过程及搜索引擎抓取网页时的工具及方式,这本文主要来讲一下,搜素引擎如何处理抓取来的页面——预处理。首先要明白,搜索引擎抓取回来的原始页面不能直接参与排名,需要对其进行处理。我们把这处理的过程称为预处理。

上一篇文章说到搜索引擎网页收集的过程及搜索引擎抓取网页时的工具及方式,这本文主要来讲一下,搜素引擎如何处理抓取来的页面——预处理


首先要明白,搜索引擎抓取回来的原始页面不能直接参与排名,需要对其进行处理。我们把这处理的过程称为预处理。


预处理是搜索引擎在后台提前完成的,所以当用户搜索时是不会感觉到的,我们优化网站时,有很多方面会影响到预处理的过程,因此,我们要对预处理有深入的理解。



搜素引擎预处理


一、提取文字


以中文搜索引擎为例,搜索引擎会分析网页文件的HTML代码中的各个元素,并去除标签、程序等元素,提取出可以用于网页排名的文字内容。因此在优化网站的时候,请注意,网页里面尽量以文字为主,不要用图片代替文字,这样蜘蛛是无法识别出来的。


二、中文分词


中文分词是搜索引擎将抓取到的页面中的文字提取出来后,对文字进行拆分重组,中文分词是中文搜索引擎特有的步骤,中文分词有两种:基于词典匹配和基于统计


1、基于词典匹配方法是指将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。如果按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。词典匹配方法计算简单,其准确度在很大程度上取决于词典的完整性和更新情况。


2、基于统计的分词方法是指分析大量文本字样,计算出字与字相邻出现的统计频率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。


基于词典匹配和基于统计的分词方法各有优劣,实际使用中的分词系统都是混合使用两种方法的,快速高效,又能识别生词、新词,消除歧义。


英文等语言,单词与单词之间有空格作为天然分隔,搜索引擎索引程序可以直接把句子划分为单词的结合。而中文,词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的,搜索引擎必须首先分辨那几个字组成一个词,哪些字本身就是一个词。


中文分词时,首次要把网页中提取出来的文字按照词组进行划分,比如“苹果手机壳多少钱”可以分为“苹果手机”“苹果手机壳”“多少钱”“苹果手机壳多少钱”。在分词的时候,无语义词会被过滤,如:的、得、啊、哦、呀、不但、而且等。


在这里需要提醒一下,做网站优化时,我们需要在网页里面合适的位置出现关键词,比如标题里面、标签里面,这样搜索引擎分词时才会更精准的把我们想要优化的关键词提取出来。


三、去除重复页面


页面去重是承接页面分词后的下一个步骤,将分词后的页面进行对比,去除重复的页面。


如果搜索引擎里面出现很多相同的内容,会影响用户的搜索体验,搜索引擎为了避免这种情况,就会对页面进行去重处理。很多人做优化喜欢在文章中插入无语义的词,如:得、地、的,或者调换段落这些伪原创,其实是无法逃避掉搜索引擎的算法,所以做优化时,产出高质量的内容才是王道。


四、计算页面重要度


页面的重要程度,又称为“权重”。页面权重主要由两方面决定:网站内容质量度链数量(被指向链接数量)。所以外链优化也是SEO中的重要一环,SEOer需要在内容质量和入链两方面花心思。


五、建立索引


1、正排索引


正排索引也可以简称为索引(Index)。经过前面几个步骤,搜索引擎得到的就是独特的,能反应页面主体内容的、以词为单位的字符串。接下来搜索引擎就可以提取关键词,按照分词程序划分关键词,把页面转化为一个个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现标题标签、黑体、H标签、锚文字等)、位置等信息。这样,每个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。搜索引擎索引程序将页面及关键词形成词表结构存储进索引库,简化的索引词表形式如下图所示:



每个文件(即处理后的页面)对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已经转化为关键词ID。这样数据结构就被称为正向索引


2、倒排索引


正排索引还不能直接用于排名。假设用户搜索关键词2(见上图),如果只存在正排索引,排名程序需要扫描所有索引库文件,找出包含关键词2的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。


所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,如下图所示:



在倒排索引中关键词是主键,每个关键词都对应着一系列的文件,这些文件中都出现了这个关键词、这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。


六、分析链接


链接关系计算是预处理中很重要的一步。主流搜索引擎排名因素都包含网页之间的链接流信息。必须计算出页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接的锚文本是什么,这些复杂的链接指向关系,形成了网站和页面的链接权重。


以上六个步骤就是搜索引擎预处理的全部流程。


SEO入门:搜索引擎工作原理之预处理
上一篇文章说到搜索引擎网页收集的过程及搜索引擎抓取网页时的工具及方式,这本文主要来讲一下,搜素引擎如何处理抓取来的页面——预处理。首先要明白,搜索引擎抓取回来的原始页面不能直接参与排名,需要对其进行处理。我们把这处理的过程称为预处理。
长按图片保存/分享

点击免费试用,满意之后再付款,不满意零成本!

Top

© 2010-2021 zigetech.com 版权所有

沪ICP备19012659号

在线咨询

您好,请点击在线客服进行在线沟通!

联系方式
热线电话
021-20960009
上班时间
周一到周五
E-mail地址
contact@zigetech.com
扫一扫二维码
二维码