Reddit稱AI公司利用資料訓練模型　主動出招限制Internet Archive爬取資料

AI公司需要大量資料訓練模型，但在資料存取權上爭議一直不斷。Reddit今（12日）表示，AI公司從互聯網檔案館（Internet Archive）的Wayback Machine爬取其資料，因此將限制Internet Archive索引其絕大部分內容。

實際上，Internet Archive旨在保存互聯網上的網站，以及其他數碼檔案，Wayback Machine則是一個工具，可以查看網頁於特定日期設定。AI公司卻利用此漏洞，存取網站資料。

根據《The Verge》報道，Reddit發言人Tim Rathschmidt表示，發現AI公司違反平台政策，確保Internet Archive採取足夠措施保護網站之前，Reddit將限制其對資料的存取，保護Reddit用戶。

限制將從今天開始「逐步實施」。Wayback Machine只能爬取Reddit.com首頁，無法爬取帖文詳情、評論或用戶個人檔案，意味著Internet Archive只能取得當天最受歡迎的新聞標題和帖文。

針對今次事件，Wayback Machine主任Mark Graham，在《The Verge》的聲明中表示Wayback Machine與Reddit有長期的合作關係，正就此事持續進行討論。

已調整API政策且對部分公司提出控訴

這並非Reddit首次對類似行為作出限制。早在2023年，Reddit便調整了API政策，避免平台數據被用於訓練AI，包括 ChatGPT、Bard及Bing AI等。在六月時，Reddit便對Anthropic提出起訴，稱Anthropic並未停止爬取資料。

然而，若AI公司願意付費，Reddit也會向其提供資料，例如早前Google以每年6,000萬美元，獲得Reddit數據的實時存取權。今年5月，Reddit 亦與 OpenAI 建立夥伴關係。