让互联网技术普惠中小企业
成为中小企业信任并依赖的云服务伙伴

谷歌搜索引擎优化是如何爬取网站数据的

浏览数量: 2457     作者: 本站编辑     发布时间: 2019-12-06      来源: 本站

     1、谷歌搜索引擎提取关键词

  2、谷歌搜索引擎消除重复与转载网页

  3、谷歌搜索引擎重要信息分析

  4、谷歌搜索引擎网页重要度分析

  5、谷歌搜索引擎倒排文件


       谷歌搜索引擎预处理

预处理是搜索引擎最复杂的部分,基本上大部分排名算法都是在预处理这个环节生效。那么搜索引擎在预处理这个环节,针对数据主要进行以下几步处理:

1、谷歌搜索引擎提取关键词

蜘蛛抓取到的页面与我们在浏览器中查看的源码是一样的,通常代码杂乱无章,而且其中还有很多与页面主要内容是无关的。由此,搜索引擎需要做三件事情: 代码去噪。去除掉网页中所有的代码,仅剩下文本文字。②去除非正文关键词。例如页面上的导航栏以及其它不同页面共享的公共区域的关键词。③去除停用词。停用词是指没有具体意义的词汇,例如“的”“在”等。


当搜索引擎得到这篇网页的关键词后,会用自身的分词系统,将此文分成一个分词列表,然后储存在数据库中,并与此文的URL进行一一对应。

2、谷歌搜索引擎消除重复与转载网页

每个搜索引擎其识别重复页面的算法均不相同,但是其中小编认为,如果将消重算法理解为由100个元素组成,那么所有的搜索引擎恐怕其80个元素都是完全一样的。而另外20个元素,则是根据不同的搜索引擎针对seo的态度不同,而专门设立的对应策略。


3、谷歌搜索引擎重要信息分析

在进行代码除噪的过程中,搜索引擎并非简单的将其去除掉而已,而是充分利用网页代码(例如H标签、strong标签)、关键词密度、内链锚文本等方式分析出此网页中最重要的词组。


4、谷歌搜索引擎网页重要度分析

通过指向该网页的外链锚文本所传递的权重数值,来为此网页确定一个权重数值,同时结合上述的“重要信息分析”,从而确立此网页的关键词集合p中每一个关键词所具备的排名系数。


5、谷歌搜索引擎倒排文件

正如上文所说,用户在查询时所得到的查询结果并非是及时的,而是在搜索引擎的缓存区已经大体排好的,当然搜索引擎不会未卜先知,他不会知道用户会查询哪些关键词,但是他可以建立一个关键词词库,而当其处理用户查询请求的时候,会将其请求按照词库进行分词。那么这样下来,搜索引擎就可以在用户产生查询行为之前,将词库中的每一个关键词其对应的URL排名先行计算好,这样就大大节省了处理查询的时间了。



简单来说,搜索引擎用控制器来控制蜘蛛爬取,然后将URL集与原始数据库进行保存,保存之后再用索引器控制每个关键词与URL之间的对应关系,并将其保存在索引数据库中。


焦点领动拥有丰富的外贸网站建设经验,北京外贸建站、上海外贸建站、广州外贸建站、深圳外贸建站、佛山外贸建站、福建外贸建站、浙江外贸建站、山东外贸建站、江苏外贸建站......


想要了解更多搜索引擎优化、外贸营销型网站建设相关知识,请拨打电话:400-6130-885,或者请添加领动小姐姐微信,我们一起交流~

外贸网站建设_副本


建站流程

相关文章

热搜标签
 产品与服务

立即行动,通过领动建站获取更多海外客户

留下您的联系方式,专属顾问会尽快联系您,并提供网站分析报告

表单名称
B2B外贸营销型网站建设
外贸网站精准营销
帮助中心
行业资讯

电话 :400-6130-885

邮箱 :cooperation@leadong.com

地址 :南京市江北新区丽景路7号焦点科技大厦

    

版权所有 ©️ 2024 南京焦点领动云计算技术有限公司  《中华人民共和国增值电信业务经营许可证》   备案证书号:  苏ICP备17012459号-2  
| 用户协议 |  隐私政策 |  法律声明