开源基础设施遭AI公司侵袭

SourceHut 的创始人兼首席执行官 Drew DeVault 最近在一篇博文中强调了一个重大问题,该问题涉及大型语言模型(LLM)公司在不遵守 robots.txt 协议的情况下抓取数据,从而导致 SourceHut 严重中断。这种情况凸显了一个更广泛的问题,即开源平台越来越受到激进的 AI 爬虫的负担。这些爬虫从大量 IP 地址运行并使用随机用户代理,这使得区分合法用户流量和机器人活动变得具有挑战性。来源