如何优化搜索引擎,页面分析原理一定要知道!
本文章由SEO优化指导用户上传提供
当用户在使用搜索引擎进行查询的时候,使用的是一个词或者短语,而到目前为止,搜索引擎仅能提供整个原始页面,不能返回与用户查询条件相匹配的信息。因此,搜索引擎还需要对原始页面进行一系列的分析和处理,以迎合用户信息查询的习惯。
如何优化搜索引擎,页面分析原理一定要知道
搜索引擎抓取首先对存储的原始页面建立索引,再过滤原始网页的标签信息,从中提取网页中的正文信息;然后,对正文信息进行切词,并建立关键字索引,得到页面与关键字间的对应关系;对所有关键字进行重组,从而建立关键字与页面之间的对应关系。具体可查看SEO(快速掌握百度搜索引擎抓取原理)相关信息。
网页索引
为了提高页面检索的效率,搜索引擎需要对抓取回来的原始页面建立索引,由于URL地址就是页面的入口,为原始页面建立索引实际上就是为页面的URL建立索引,这样就可以实现根据URL快速定位到对应的页面。
网页分析
网页分析是整个网页处理过程中重要的环节,包括网页正文信息的提取(即标签信息过滤)、切词、建立关键字索引列表及关键字重组这几个重要的步骤。结果形成了一个关键字对应多个原始页面的关系,即形成了与用户查询习惯相符合的信息雏形。
正文信息提取
网页正文信息的提取实际上就是对网页中非正文信息的过滤。其中,为重要的就是对网页中标签信息的过滤。经过标签过滤以后,搜索引擎就可以得到网页的正文信息。
切词/分词
经过对原始页面提取正文信息后,搜索引擎就可以得到页面的实质内容。而为了得到用户查询相关的数据,搜索引擎还需要对页面中的内容进行切分,从而形成与用户查询条件性匹配的以关键字为单位的信息列表。
每个搜索引擎的切词系统都会处在或多或少的差别,切词系统的优劣主要取决于开发者对语言的理解能力。特别是在中文语言环境里,切词算法直接影响网页内容经过切词处理后会产生什么样的关键字,这些关键字是否与用户的搜索习惯一致。因而,切词的结果直接决定搜索引擎能否提供与用户查询条件相匹配的信息。
在中文环境里,常见的分词方法包括字符串匹配分词及统计分词两种,下面简单介绍一下这两种中文分词算法。
字符串匹配分词是基于一个足够大、足够权威的“词典”上进行的。如果页面上的词与“词典”中的词匹配,则为命中。这样就可以得到一个词或者短语。
统计分词是根据相邻的两个(或者多个)字出现的概率判断这两个(或者多个)字组合后是否会形成一个词,例如,“微博”等着一些在传统中文语言中不存在的词汇。
关键字索引
网页正文信息在经过切词系统处理后,形成了关键字列表。关键字列表中的每条记录都包括了该关键字所在的关键字编号、网页编号、关键字出现次数以及关键字在文档中的位置等信息,
为了提高对关键字的检索效率,搜索引擎还会为关键字列表建立索引。这样,经过对网页及关键字列表都建立索引后,就可以实现从一个网页快速定位到某一个关键字。例如,网页0经过信息过滤后得到的内容是“中国广东省深圳市”;然后,对内容进行切词后产生关键字“中国”“广东省”“深圳市”,并对关键字建立索引。
这样根据网页0,搜索引擎就可以快速定位到关键字“中国广东省深圳市”,然而,用户是通过那些关键字去寻找那些承载相应信息的页面的,所以,搜索引擎还需要对已有信息进行相应的处理,建立关键字与页面URL间的对应关系表,从而实现根据关键字快速定位到多个页面的功能,这就是关键字重组。
关键字重组
为了迎合用户寻找信息的习惯,及关键字为条件寻找与关键字相关的页面。因此,搜索引擎需要建立以关键字为主索引的一个关键字对应多个页面的关系表,即关键字反向索引表。而建立关键字反向索引表重要的任务就是对所有页面中的关键字列表进行重组。
之前对关键字建立索引后,已经产生了网页与关键字的一对多的对应关系。接下来,搜索引擎把所有页面中的关键字进行重组,并建立关键字引擎,从而形成一个特定的关键字就可以找到一个或者多个网页,从而实现根据关键字返回相应页面的功能。
经过对原始页面进行分析、处理后,搜索引擎已经可以根据用户的查询条件返回相应的页面列表。但是,简单地向用户返回这个页面列表,往往不能满足用户的需要,所以,搜索引擎还会根据页面与用户查询条件相关性的高低再对这个列表进行重新排列,然后把处理后的列表返回给用户。
除非注明,否则均为SEO优化顾问服务_零基础SEO优化指导全网营销【顺的推SEO】真实故事改编,转载必须以链接形式标明本文链接。