人工智能淘金热陷入“瓶颈”,可能给谷歌和Meta带来灾难

领取MOLI红包
栏目分类
Counterparty中文网
Counterparty中文网
你的位置:BONE 中文站 > Counterparty中文网 > 人工智能淘金热陷入“瓶颈”,可能给谷歌和Meta带来灾难
人工智能淘金热陷入“瓶颈”,可能给谷歌和Meta带来灾难
发布日期:2025-01-03 19:20    点击次数:154
研究机构Epoch AI在上周四发布的一项最新研究预测,大约到这个十年之交,即2026年到2032年之间,科技公司将耗尽人工智能语言模型所需的公开训练数据。 该研究报告的作者塔马伊·贝西罗格卢将其与耗尽有限自然资源的 “淘金热”进行比较。他表示,一旦人工智能领域耗尽了人类创造的文字储备,保持目前的发展速度可能会面临挑战。 在短期内,ChatGPT的开发者OpenAI和谷歌(Google)等科技公司正在竞相获取高质量的数据源,有时甚至为这些数据付费,用来训练它们的人工智能大语言模型,例如,通过签署协议来获取Reddit论坛和新闻媒体上源源不断的语句。 从长远来看,不会有足够多的新博客、新闻报道和社交媒体评论来维持当前的人工智能发展轨迹,这将给公司带来压力,迫使它们利用现在被视为隐私的敏感数据(如电子邮件或短信),或者依靠聊天机器人自己输出的可靠性较低的“合成数据”。 贝西罗格卢表示:“这方面存在一个严重的瓶颈。如果可用的数据量受到限制,你就无法再高效扩展你的模型。而扩展模型规模可能是增强模型能力和提高输出质量的最重要方式。” 两至八年低谷期 两年前,也就是ChatGPT首次亮相前不久,研究人员在一篇工作论文中首次提出了他们的预测,认为高质量文本数据在2026年就会枯竭。在那之后,许多事情发生了变化,包括新技术让人工智能研究人员能够更好地利用已有数据,有时还能对同一数据源进行多次“过度训练”。 但这是有限度的,经过进一步研究,Epoch现在预计在未来两到八年的某个时候,公共文本数据将会耗尽。 该团队的最新研究已通过同行评审,并将在今年夏天于奥地利维也纳举行的国际机器学习大会(International Conference on Machine Learning)上发表。Epoch是一家非营利性研究机构,由总部位于旧金山的Rethink Priorities主办,并由“有效利他主义”的支持者提供资金。有效利他主义是一种慈善运动,已投入大量资金减少人工智能最严重的风险。 贝西罗格卢表示,人工智能研究人员早在十多年前就意识到,积极扩展两个关键要素——算力和海量互联网数据,可以显著提高人工智能系统的性能。 Epoch的研究显示,输入人工智能语言模型的文本数据量每年增长约2.5倍,而计算能力每年增长约4倍。Facebook母公司Meta Platforms最近声称,他们即将推出的Llama 3模型(尚未发布)的最大版本已经在多达15万亿个词块上进行了训练,每个词块可以代表一个词汇的一个片段。 但是,担心数据瓶颈到底有多大的价值还值得商榷。 多伦多大学(University of Toronto)计算机工程系助理教授、非营利组织人工智能矢量研究所(Vector Institute for Artificial Intelligence)的研究员尼古拉斯·帕珀诺特表示:“我认为,重要的是要记住,我们并不一定需要训练越来越大的模型。” “再复印复印件” 帕珀诺特没有参与Epoch的研究。他表示,还可以通过对特定任务更加专业的训练模型,创建更熟练的人工智能系统。但他担心的是,生成式人工智能系统使用其自身输出的结果进行训练,会导致系统性能下降,即所谓的“模型坍塌”。 帕珀诺特表示,使用人工智能生成的数据进行训练“就像你复印一张纸,然后再复印复印件。你会丢失一些信息。”不仅如此,帕珀诺特的研究还发现,这样做会把信息生态系统中现存的错误、偏见和不公平进一步编码。 如果真正由人类创造的语句依旧是一种重要的人工智能数据源,那么最受青睐的信息库的管理者,如Reddit和维基百科(Wikipedia)等网站,以及新闻和图书出版商等,就必须认真思考该如何使用这些数据。 维基百科运营方维基媒体基金会(Wikimedia Foundation)的首席产品和技术官塞琳娜·德克尔曼开玩笑说:“也许你不必追求完美。现在,我们正在就人类创建的数据进行与自然资源类似的对话,这是一个有趣的问题。我不应该嘲笑它,但我确实觉得有点不可思议。” 虽然有些机构往往在数据被无偿使用后,才试图阻止他们的数据被用于训练人工智能,,但维基百科对于人工智能公司如何使用志愿者撰写的词条,几乎没有任何限制。尽管如此,德克尔曼表示,她希望能鼓励人们继续贡献词条,尤其是在大量廉价的自动生成的“垃圾内容”开始污染互联网的时候。 她表示,人工智能公司应该“关注人类生成的内容如何继续存在并且可以继续访问”。 从人工智能开发者的角度来看,Epoch的研究称,向数百万人付费生成人工智能模型所需的文本,“不太可能是一种经济的方式”来提高技术性能。 随着OpenAI 开始训练其下一代GPT大语言模型,其CEO山姆·阿尔特曼在上个月的一次联合国活动上表示,OpenAI已经尝试过“生成大量合成数据”进行训练。 阿尔特曼表示:“我认为你需要的是高质量的数据。有低质量的合成数据。也有低质量的人类数据。”但对于过度依赖合成数据而非其他技术方法来改进人工智能模型的做法,他也持保留意见。 阿尔特曼表示:“如果训练模型的最佳方法只是生成千万亿词块的合成数据并将其反馈到模型,那就太奇怪了。从某种程度上来说,这似乎效率不高。”(财富中文网) 翻译:刘进龙 审校:汪皓

  • 上一篇:没有了
  • 下一篇:人教版高二英语第二课News media