科技巨頭被曝未經授權用YouTube內容訓練 AI,蘋果、英偉達在列
2024-07-17 08:15:16 IT之家7 月 16 日消息,據 Wired 報道,包括蘋果在內的一些科技巨頭未經 YouTube 視頻創作者同意,就使用了他們視頻的字幕文件來訓練人工智能模型。
圖源:pixabay
此次事件影響到的創作者包括知名科技博主 MKBHD (Marques Brownlee)、MrBeast、PewDiePie、以及脫口秀主持人斯蒂芬?科爾伯特、約翰?奧利弗和吉米?坎摩爾等。這些被用于訓練 AI 的字幕文件相當于視頻的文本轉錄內容。
調查記者披露,一些世界上最富有的科技公司一直在利用來自成千上萬個 YouTube 視頻的素材來訓練 AI,而這違反了 YouTube 禁止從平臺上未經許可抓取內容的規定。據悉,超過 17.3 萬個來自 4.8 萬個頻道的 YouTube 視頻字幕文件被用來訓練人工智能模型,其中就包括蘋果、英偉達、Salesforce 等硅谷巨頭。
據報道,下載這些字幕文件的是一個名為 EleutherAI 的非盈利組織,他們聲稱其目的是幫助開發者訓練 AI 模型。雖然 EleutherAI 的初衷可能是為小型開發者和學術研究者提供訓練材料,但該數據集也被蘋果等科技巨頭使用。
根據 EleutherAI 發布的一篇研究論文,這份數據集是他們發布的名為“The Pile”的大型數據集的一部分。“The Pile”中的大部分數據集都是公開的,任何擁有足夠存儲空間和計算能力的人都可以訪問。除了科技巨頭之外,一些學者和開發者也使用了該數據集。然而,蘋果、英偉達和 Salesforce 等市值數百億甚至數千億美元的公司也在他們的研究論文和帖子中提到了他們如何使用該數據集來訓練 AI 模型。
有文件顯示,蘋果在 4 月份發布了備受關注的 OpenELM 模型幾周之前,就使用了“The Pile”進行訓練。而 OpenELM 模型的發布恰逢蘋果宣布將在 iPhone 和 Macbook 中加入新的 AI 功能。
需要注意的是,蘋果自己并沒有下載這些數據,而是由 EleutherAI 完成的。因此,從技術層面來說,是 EleutherAI 違反了 YouTube 的使用條款。
盡管蘋果和其他公司可能使用了公開的數據集,但此事件凸顯了從網絡上抓取數據來訓練 AI 系統所帶來的法律風險。此前就曾出現過 AI 系統在回答小眾話題時抄襲整段文本的案例,當公司使用第三方編譯的數據集時,只會增加未經許可使用素材的風險。
免責聲明:本文由作者原創。文章內容系作者個人觀點,轉載目的在于傳遞更多信息,并不代表EETOP贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時聯系我們,我們將在第一時間刪除。