劃重點:
- ? OpenAI 為訓練 GPT-4模型轉(zhuǎn)錄了超過一百萬小時的 YouTube 視頻
- ? Google 和 Meta 也遇到了數(shù)據(jù)獲取限制的挑戰(zhàn)
- ? AI 公司面臨數(shù)據(jù)獲取困難,采取爭議性手段應對
(ChinaZ.com)4月7日 消息:AI 公司在獲取高質(zhì)量訓練數(shù)據(jù)方面遇到的挑戰(zhàn),OpenAI 為了訓練其最先進的大型語言模型 GPT-4,使用了超過一百萬小時的 YouTube 視頻副本。
據(jù)了解,該公司通過其 Whisper 音頻轉(zhuǎn)錄模型轉(zhuǎn)錄這些視頻,盡管這一做法在法律上具有爭議性,OpenAI 仍認為這屬于合理使用。
Google 對此表示關注,指出其條款禁止未經(jīng)授權(quán)地獲取 YouTube 內(nèi)容。同時,Google 和 Meta 也遇到了訓練數(shù)據(jù)獲取的限制,為了跟進 OpenAI 的步伐,這兩家公司也采取了一些爭議性的做法。
AI 領域正面臨訓練數(shù)據(jù)短缺的挑戰(zhàn),而解決方案尚未明朗,公司們需要權(quán)衡利弊并尋求合理途徑應對這一問題。