谷歌推网页爬虫新规范开源robotstxt解析器_试用报告

发表时间：2023-09-26 01:06:41 来源：试用报告

关于触摸过网络爬虫的人来说 robots.txt 绝不生疏，这一存放于网站根目录下的 ASCII 码文件标明晰网站中哪些内容是能够抓取的，哪些内容又是制止抓取的。

本年，robots.txt 就满 25 周岁了，为了给这位互联网MVP庆祝生日，谷歌再度出手，开源 robots.txt 解析器，企图推助机器人扫除协议（REP）正式成为互联网职业规范。

REP 以其简略高效征服了互联网职业，有超越 5 亿个网站都在运用 robots.txt，能够说它渐渐的变成了了约束爬虫的事实规范，像 Googlebot 在抓取网页时就会阅读 robots.txt 来保证其不得罪网站的特别声明。

但是，在为互联网职业服务了25年之后，REP 依然仅仅一个非官方的规范。

比方拼写过错。有很多人会忽视 robots.txt 规矩中的冒号，而把 Disallow 拼成 Dis Allow 这种让爬虫抓瞎的状况也不是没再次呈现过。

此外，REP自身并没有包括一切的状况，比方呈现服务器过错 500 时，爬虫是啥都能够抓仍是啥也不能抓？

关于网站一切者来说，含糊的事实规范使得正确地书写规矩变成了一件难事。这就够让人头疼的了，更别提并非一切的爬虫都尊重 robots.txt 这件事了。

REP 的为难，以查找发家的谷歌看在眼里。所以在 REP 诞生25周年之际，谷歌大笔一挥，献上一份厚礼，宣告将与 REP 原作者 Martijn Koster、网站管理员和其他查找引擎协作，向互联网工程使命组（IETF）提交规范化运用 REP 的草案，尽力助其成为真实的官方规范！

为此，谷歌还开源了其用于抓取网络的东西之一——robots.txt 解析器，来协助研制人员构建自己的解析器，以期创立更多的通用格局，促进规范的完善。

此番开源的 C++ 库已存在20年之久，包括了谷歌出产进程中阅历的许多有关 robots.txt 文件的事例。开源软件包中还包含了一个测验东西，能够在必定程度上协助开发者们测验一些规矩。

谷歌表明，他们期望协助网站一切者和开发者们在互联网中创造出更多惊人的体会，而不是成天忧虑怎样去约束爬虫。

开发人员有必要至少解析 robots.txt 的前 500 KiB。界说最大文件巨细来保证翻开文件不会花太长时刻，以减轻服务器的压力。

新的最大缓存时刻或缓存指令值为24小时，使网站一切者能够每时每刻灵敏地更新 robots.txt，而且爬虫不会运用 robots.txt 恳求超载网站。

当从前可拜访的 robots.txt 文件因为服务器毛病而变得不行拜访时，在长时刻内不会对已知的不允许页面进行抓取。

有网友表明，谷歌作为查找职业的领军人物，大多数的查找引擎都乐意紧随其后，他们愿做前锋一致职业规范是一件很有含义的工作。

还有网友对谷歌乐意开源 robots.txt 解析器感到既振奋又惊讶，谷歌将来还会开源与查找相关的其他模块吗？想想都有点影响呀。

而 Martijn Koster 自己也说出了一些网友的心声：谷歌真是棒呆了！