Reddit封锁爬虫，Google则花6000万美元独占Reddit搜索结果-灰度官网

Google现在是唯一可以从Reddit搜索出结果的搜索引擎，使网络最有价值的用户生成内容仓库之一成为网络搜索巨头的独占品。

Google现在是唯一可以从Reddit搜索出结果的搜索引擎，使网络最有价值的用户生成内容仓库之一成为网络搜索巨头的独占品。

如果你使用Bing、DuckDuckGo、Mojeek、Qwant或任何其他不依赖Google索引的替代搜索引擎，并使用“site:reddit.com”去搜索Reddit，你将看不到过去一周的任何结果。DuckDuckGo目前在搜索Reddit时只会会出现7个连接，但不提供这些连接的去向或原因的任何数据，只是说“我们想要在此处为你显示摘要，但网站不允许”。较旧的结果仍会显示，但这些搜索引擎不再能够“爬取”Reddit，这意味着Google将是唯一能够显示Reddit结果的搜索引擎。在独立的付费搜索引擎Kagi上搜索Reddit仍然有效，Kagi从Google购买了部分搜索索引。

这个消息显示了Google在搜索方面的近乎垄断地位，以及如何积极阻碍其他公司竞争的能力，这个时间点，刚好是Google因为其搜索结果品质下降而面临越来越多的批评。其他搜索引擎被排除在外，也发生在Reddit限制对其网站的访问以阻止公司爬取其内容用于人工智能训练之后，目前只有Google可以继续爬取Reddit的数据，这是基于一项数百万美元的协议，该协议赋予Google爬取Reddit数据以训练其AI产品的权利。

“他们“Reddit”正在扼杀除Google以外的所有搜索引擎。”搜索引擎Mojeek的首席执行官柯林·海赫斯特（Colin Hayhurst）在通话中告诉我。

海赫斯特在六月初Mojeek发现被禁止爬取该网站时尝试通过电子邮件联系Reddit，但表示尚未收到回复。

“这以前从来没有发生过。”他说。“因为这会发生在我们身上，我们被封锁，通常是因为愚蠢或其他原因，当你联系网站时，你一定可以解决这个问题，但我们从未遇到过没有任何人回复的情况。”

“这与我们最近与Google的合作伙伴关系完全无关。由于我们最近与Google完成协议，说最近的Reddit结果没有出现在非Google搜索引擎中并不准确。”Reddit发言人提姆?拉史密特（Tim Rathschmidt）在电子邮件中说。他表示，Reddit会封锁所有不愿意承诺不将爬取数据用于人工智能训练的爬虫，而且Reddit一直“与多个搜索引擎进行讨论。我们无法与所有搜索引擎完成协议，因为一些搜索引擎无法或不愿意就其对Reddit内容的使用（包括用于人工智能）做出可执行的承诺。”

然而，Reddit并没有解释为什么没有回复来自Mojeek的电子邮件，而Mojeek并不会爬取网络数据用来训练AI。

“我们愿意与各种规模大小的公司合作，而且现在也在这样做。”拉史密特说。

越来越多的网站试图通过更新robots.txt文件来阻止人工智能公司用来爬取其网站以进行训练的机器人。Robots.txt是一个文本文件，它会指示机器人它们是否被允许访问网站。例如，Googlebot是Google用于爬取网络以获取搜索结果的爬虫或“蜘蛛”。具有robots.txt文件的网站可以例外地授给Googlebot访问权限，而不授给其他机器人访问权限，因此它们可以出现在可以产生大量流量的搜索结果中。最近，Google还推出了Google-Extended，这是一个专门爬取网络以改善其Gemini应用程序的机器人，因此网站可以允许Googlebot爬取但封锁Google用来驱动其生成式AI产品的爬虫。

Robots.txt只是指令，爬虫可以并且已经忽视了这些指示，但据海赫斯特说，Reddit也在积极主动封锁其爬虫。

Reddit一直对人工智能公司爬取网站以训练大型语言模型感到不满，并采取了公开和积极的措施阻止它们继续这样做。去年，当Reddit开始收取访问其API的费用时，它破坏了许多Reddit社交媒体喜爱的第三方应用程序，使许多这些第三方应用程序的运营成本过高。今年早些时候，Reddit宣布与Google签署了一项价值6000万美元的协议，允许Google可以得到授权用Reddit内容来训练其AI产品。

Reddit的robots.txt过去包含许多笑话，例如禁止来自未来世界的机器人Bender爬取它(User-Agent:bender,Disallow:/my_shiny_metal_ass)和搜索引擎可以和不可以访问的特定页面。“/r .rss/”被允许，而“/login”不被允许。

如今，Reddit的robots.txt更简单、更严格。除了几个指向Reddit新的“公共内容政策”的连接之外，该文件还简单地包含以下指令：

User-agent:

Disallow:/

这基本上意味着：任何用户代理（机器人）都不得爬取网站的任何部分。

“Reddit信奉开放的网际网络，但不赞成滥用公共内容，”更新后的robots.txt文件说。

Reddit在6月表示：“不幸地，我们看到显然商业化的实体越来越多地爬取Reddit内容，并辩称不受我们的条款或政策约束。更糟糕的是，他们躲在robots.txt背后，声称可以将Reddit内容用于任何他们想要的用途。虽然我们将继续尽我们所能找到并主动阻止这些不良行为者，但我们需要做更多的事情来保护Reddit用户的贡献。在接下来的几周内，我们将尽可能清楚地更新我们的robots.txt指令：如果你使用自动代理程序访问Reddit，你需要遵守我们的条款和政策，并且需要与我们联系。”

Reddit大约在6月25日左右更新了其robots.txt文件，当时Mojeek的海赫斯特注意到他们的网络爬虫被封锁了。当时的公告称：“像研究人员和网际网络文件馆等组织，将继续可以访问Reddit内容用于非商业用途，”并且“我们对与谁合作以及信任谁能大规模访问Reddit内容持谨慎态度。”。公告还连接到一个关于访问Reddit数据的指南，该指南明确指出Reddit认为“搜索或网站广告”属于“商业用途”，并且任何人都不能未经许可或支付费用而使用Reddit数据。

Google没有回应媒体的评论，但其宣布与Reddit完成协议的声明不仅指出Reddit对于训练人工智能的价值，还还指出我们许多人已经知道的事实：随着Google搜索在找到相关搜索结果方面变得越来越糟糕，获得相关结果的最佳方式之一就是在你的搜索查询中添加“Reddit”，将Google引导到一个真实的人类已经写了近二十年建议和推荐的网站。。有很多方法可以说明Reddit的有用性，但不会做得比这段视频更好：

Google现在是唯一能将用户导向那些资讯的搜索引擎，而且这显然是与Google花了6000万美元购买AI训练数据有关。这再次显示了，为了驱动生成式AI工具而无差别地抓取整个网络，可能产生意想不到的后果。

海赫斯特说：“我们一直以来都以尊重的方式爬取资讯，并且已经这样做了20年。我们在Cloudflare上经过验证，我们不训练AI，就像真正的传统搜索一样，我们不做“答案引擎”之类的事情。”“答案引擎”是Perplexity对其人工智能搜索引擎的称呼。“Mojeek的全部意义在于我们不进行任何关注。但人们也使用我们是因为我们提供了一套完全不同的结果。”

海赫斯特说，Reddit与Google的协议使提供这些替代搜索网络的方式变得更加困难。

“这只是更大趋势的一部分，不是吗？”他说：“这让我们非常担心。网络正在逐渐被消灭，被侵蚀。我不想以偏盖全，但这对小公司来说没有帮助。”