tel:17340208223 QQ:229119353 微信:cdseo-seo 登陆 注册

与Googbot第一次约会,什么是标头和压缩

日期: 2018-08-20 14:11:00 点击:345 栏目:常见问题
我知道第一次约会的时分,过火地分析从来就不是什么好主意。咱们将通过一系列的文章,一点点地了解谷歌机器人: 咱们的第一次约会(就在今...
我知道第一次约会的时分,过火地分析从来就不是什么好主意。咱们将通过一系列的文章,一点点地了解谷歌机器人: 咱们的第一次约会(就在今晚):谷歌机器人宣布的数据标头和他所留意到的文件格局是否适于被进行紧缩处理; 谷歌机器人 -- 多么奇特的梦幻之舟!他了解咱们的魂灵和各个组成部分。或许他并不寻求什么绝无仅有的东西;他阅览过其它数十亿个网站(尽管咱们也与其他查找引擎机器人分享自己的数据:)),可是就在今晚,作为网站和谷歌机器人,咱们将真实地了解对方。 判别他的反响:响应代码(301s、302s),他怎么处理重定向和If-Modified-Since; 下一步:跟着链接,让他匍匐得更快或许更慢(这样他就不会兴奋地过了头)。 今晚仅仅咱们的第一次约会…… *************** 谷歌机器人: 指令正确应答 网站: 谷歌机器人,你来了! 谷歌机器人:是的,我来了!   GET / HTTP/1.1 Host: example.com Connection: Keep-alive Accept: */* From: googlebot(at)googlebot.com User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Accept-Encoding: gzip,deflate   网站: 这些标头太炫了!不管我的网站在美国、亚洲仍是欧洲,你都用同样的标头匍匐吗?你从前用过其他标头吗?   谷歌机器人: 一般来说,我在全球各地所用的标头都坚持一致。我企图从一个网站默认的语言和设定动身,搞清楚一个网页终究长得什么样。有时分人们的用户署理各不相同,例如Adsense读取运用的是“Mediapartners-Google”: User-Agent: Mediapartners-Google 或许关于图画查找: User-Agent: Googlebot-Image/1.0 无线读取的用户署理因运营商而异,而谷歌阅读器RSS读取则包括了订阅者数量等额定信息。 我一般会避免Cookies(因而不存在所谓“Cookie:”标头),由于我并不期望与具体对话有关的信息对内容发生太大的影响。此外,假如某个服务器在动态URL而不是Cookies上运用对话ID,一般我都能辨认出来,这样就不用由于每次对话ID的不同而不计其数遍地重复匍匐同一个网页。 网站:我的结构十分复杂。我是用许多类型的文件。你的标头说:“Accept:*/*”。你会对一切的URL进行收录,仍是自动过滤某些文件扩展名?   谷歌机器人:这要取决于我想找什么。 假如我仅仅对常规的Web查找进行检索,当我看到指向MP3和视频内容的链接,我可能不会下载这些东西。类似地,假如我看到了一个JPG文件,处理方法天然 就与HTML或许PDF链接有所区别。例如JPG 的变化频率往往比HTML低许多,所以我不太经常查看JPG的变化,以节约带宽。一起,假如我为谷歌学术查找寻觅链接,那么我对PDF文章的爱好就会远远高于对JPG文件的爱好。关于学者而言,下载涂鸦绘画(例如JPG),或许是关于小狗玩滑板的视频,是简单让他们涣散留意力的,你说对吗? 网站:没错,他们可能会觉得被打扰到了。你的敬业精神令我佩服得五体投地。我自己就喜爱涂鸦绘画(JPG),很难抗拒它们的诱惑力。 谷歌机器人:我也相同。实际上我并不是一向都在做学问。假如我为查找图画而匍匐,就会对JPG十分感爱好,碰到新闻,我会花大力气调查HTML和它们附近的图画。 还有许多扩展名,例如exe、dll、zip、dmg等,它们关于查找引擎而言,既数量巨大,又没有多大用途。   网站:假如你看到我的URL“http://www.example.com/page1.LOL111”,(呜噎着说)你会不会仅仅由于里边包括着不知道的文件扩展名就把它拒之门外呢?   谷歌机器人: 网站老兄,让我给你讲点背景知识吧。一个文件真实下载完成后,我会运用“内容—类别”(Content-Type)标头来查看它归于HTML、图画、文本仍是其他什么东西。假如它是PDF、Word文档或Excel作业表等特别的数据类型,我会确认它的格局是否合法有用,并从中抽取文本内容。可是你永久也不能断定里边是否含有病毒。可是假如文档或数据类型紊乱不清,我除了把它们扔掉之外,也没有什么更好的方法。 所以,假如我匍匐你的 “http://www.example.com/page1.LOL111”URL并发现不知道文件扩展名时,我可能会首要把它下载。 假如我从标头中无法弄清内容类型,或许它归于咱们回绝检索的文件格局(例如MP3),那么只能把它放在一边了。除此之外,咱们会接着对文件进行匍匐。   网站:谷歌机器人,我很抱愧对你的作业风格“鸡蛋里挑骨头”,但我留意到你的“Accept-Encoding”标头这样说: Accept-Encoding: gzip,deflate 你能跟我说说这些标头是怎么回事吗?   谷歌机器人:当然。一切的干流查找引擎和WEB浏览器都支撑对内容进行gzip紧缩,以节约带宽。你或许还会碰到其它的一些类型,例如“x-gzip”(与“gzip”相同),“deflate”(咱们也支撑它)和“identity”(不支撑)。   网站:你能更具体地说说文件紧缩和“Accept-Encoding: gzip,deflate”吗?我的许多URL都包括尺度很大的Flash文件和美好的图画,不仅仅是HTML。假如我把一个比较大的文件加以紧缩,会不会有助于你更迅速地匍匐呢?   谷歌机器人:关于这个问题,并没有一个简单的答案。首要,swf(Flash)、jpg、png、gif和pdf等文件格局自身现已是紧缩过的了(而且还有专门的Flash 优化器)。 网站:或许我现已把自己的Flash文件进行了紧缩,自己还不知道。很显然,我的功率很高喽。 谷歌机器人:Apache和IIS都供给了选项,答应进行gzip和deflate紧缩,当然,节约带宽的价值是对CPU资源的更多耗费。一般情况下,这项功用只适用于比较简单紧缩的文件,例如文本HTML/CSS/PHP内容等。而且,只有在用户的浏览器或许我(查找引擎机器人)答应的情况下才能够运用。 就我个人而言,更倾向于“gzip”而不是“deflate”。Gzip的编码进程相对可靠一些,由于它不断地进行加和查看,而且坚持完好的标头,不像 “deflate”那样需求我在作业中不断估测。除此之外,这两种程序的紧缩算法语言都很类似。 假如你的服务器上有闲置的CPU资源,能够测验进行紧缩(链接:Apache, IIS)。可是,假如你供给的是动态内容,而且服务器的CPU现已处于满负荷状态,我主张你仍是不要这样做。   网站:很长才智。我很快乐今晚你能来看我。感谢老天爷,我的robots.txt文件答应你能来。这个文件有时分就像对自己的子女过火维护的爸爸妈妈。   谷歌机器人:提到这儿,该见见爸爸妈妈大人了——它就是robots.txt。我从前见过不少发疯的“爸爸妈妈”。其间有些实际上仅仅HTML过错信息网页,而不是有用的robots.txt。有些文件里充满了无穷无尽的重定向,而且可能指向彻底不相关的站点。别的一些体积巨大,含有不计其数条独自成行、各不相同的 URL。下面就是其间的一种有副作用的文件形式,在一般情况下,这个站点是期望我去匍匐它的内容的: User-Agent: * Allow: / 但是,在某个用户流量的顶峰时段,这个站点转而将它的robots.txt切换到限制性极强的机制上: # Can you go away for a while? I'll let you back # again in the future. Really, I promise! User-Agent: * Disallow: / 谷歌机器人: 网站老兄,谢谢你提出的这些问题,你一向做得很不错,但我现在不得不说“再见,我的爱人”了。 网站:哦,谷歌机器人…(完毕应答):) 上述robots.txt文件切换的问题在于,一旦我看到这种限制性很强的robots.txt,有可能使我不得不把索引中现已匍匐的该网站内容放弃掉。当我再次被同意进入这个站点的时分,我不得不将原先的许多内容从头匍匐一遍,至少会暂时呈现503过错相应代码。 一 般来说,我每天只能从头查看一次robots.txt(不然,在许多虚拟主机站点上,我会将一大部分时刻花在读取robots.txt文件上,要知道没有 多少约会目标喜爱如此频繁地参见对方爸爸妈妈的)。站长们通过robots.txt 切换的方法来操控匍匐频率是有副作用的,更好的方法是用网站管理员东西将匍匐频率调至“较低”即可。