Reddit稱AI公司利用資料訓練模型 主動出招限制Internet Archive爬取資料

AI公司需要大量資料訓練模型,但在資料存取權上爭議一直不斷。Reddit今(12日)表示,AI公司從互聯網檔案館(Internet Archive)的Wayback Machine爬取其資料,因此將限制Internet Archive索引其絕大部分內容。

實際上,Internet Archive旨在保存互聯網上的網站,以及其他數碼檔案,Wayback Machine則是一個工具,可以查看網頁於特定日期設定。AI公司卻利用此漏洞,存取網站資料。

根據《The Verge》報道,Reddit發言人Tim Rathschmidt表示,發現AI公司違反平台政策,確保Internet Archive採取足夠措施保護網站之前,Reddit將限制其對資料的存取,保護Reddit用戶。

限制將從今天開始「逐步實施」。Wayback Machine只能爬取Reddit.com首頁,無法爬取帖文詳情、評論或用戶個人檔案,意味著Internet Archive只能取得當天最受歡迎的新聞標題和帖文。

針對今次事件,Wayback Machine主任Mark Graham,在《The Verge》的聲明中表示Wayback Machine與Reddit有長期的合作關係,正就此事持續進行討論。

已調整API政策 且對部分公司提出控訴

這並非Reddit首次對類似行為作出限制。早在2023年,Reddit便調整了API政策,避免平台數據被用於訓練AI,包括 ChatGPT、Bard及Bing AI等。在六月時,Reddit便對Anthropic提出起訴,稱Anthropic並未停止爬取資料。

然而,若AI公司願意付費,Reddit也會向其提供資料,例如早前Google以每年6,000萬美元,獲得Reddit數據的實時存取權。今年5月,Reddit 亦與 OpenAI 建立夥伴關係。

美國版連登Reddit股價盤後升逾17% 季度收入升78%超預期 

美國版連登Reddit(美:RDDT)公布季度業績。Reddit季度收入5億美元,按年升78%,高於市場預期的4.3億美元,每股收益45美仙,同樣高於預期的19美仙。Reddit收升逾7%後,股價盤後再升逾17%,報189.12美元。

Reddit表示,今季收入將於5.35億至5.45億美元之間,高於市場預期的4.7億美元;經調整收益預計為1.85億至1.95億美元,同樣高於預期的1.6億美元。

Reddit季度全球每日活躍用戶按年增21%至1.104億,高於分析師預期的1.09億,全球每用戶平均收入為4.53美元,高於預期的3.9美元。

Reddit美國的銷售額為4.09億美元,國際收入為9100萬美元,齊勝預期。包括數據授權業務在內的「其他收入」增24%至3500萬美元。

行政總裁Steve Huffman談到人工智能對Reddit搜尋流量的影響,表示雖然Reddit 4月起步較慢,但現在隨著本季度的結束,增長勢頭愈來愈好。他又指Reddit在消費者中日益增長的知名度有助抵禦任何重大變化。