AI公司需要大量資料訓練模型,但在資料存取權上爭議一直不斷。Reddit今(12日)表示,AI公司從互聯網檔案館(Internet Archive)的Wayback Machine爬取其資料,因此將限制Internet Archive索引其絕大部分內容。
實際上,Internet Archive旨在保存互聯網上的網站,以及其他數碼檔案,Wayback Machine則是一個工具,可以查看網頁於特定日期設定。AI公司卻利用此漏洞,存取網站資料。
根據《The Verge》報道,Reddit發言人Tim Rathschmidt表示,發現AI公司違反平台政策,確保Internet Archive採取足夠措施保護網站之前,Reddit將限制其對資料的存取,保護Reddit用戶。
限制將從今天開始「逐步實施」。Wayback Machine只能爬取Reddit.com首頁,無法爬取帖文詳情、評論或用戶個人檔案,意味著Internet Archive只能取得當天最受歡迎的新聞標題和帖文。
針對今次事件,Wayback Machine主任Mark Graham,在《The Verge》的聲明中表示Wayback Machine與Reddit有長期的合作關係,正就此事持續進行討論。
已調整API政策 且對部分公司提出控訴
這並非Reddit首次對類似行為作出限制。早在2023年,Reddit便調整了API政策,避免平台數據被用於訓練AI,包括 ChatGPT、Bard及Bing AI等。在六月時,Reddit便對Anthropic提出起訴,稱Anthropic並未停止爬取資料。
然而,若AI公司願意付費,Reddit也會向其提供資料,例如早前Google以每年6,000萬美元,獲得Reddit數據的實時存取權。今年5月,Reddit 亦與 OpenAI 建立夥伴關係。