训练??智能语?模型的数据或在???六年耗尽?

2022-04-20 16:04
海外星云 2022年24期
关键词:低质量高质量人工智能

大型语言模型是目前人工智能研究中最热门的领域之一,各公司竞相发布GPT-3一类的模型,他们可以写出令人印象深刻的连贯文章,甚至是计算机代码。

但根据一个人工智能预测团队的说法,一个严峻的问题即将出现:我们未来可能没有足够的数据来训练他们。

大型语言模型是使用维基百科、新闻文章、科学论文和书籍等文本内容进行训练的。

近年来,相关研究的趋势是利用越来越多的数据来训练这些模型,以期望它们更准确、更通用。

问题是,最适合用于训练语言模型的数据类型可能在不久的将来耗尽。人工智能研究和预测组织Epoch在一篇未经同行评审的论文中指出,数据耗尽最早可能出现于2026年。

这个问题源于这样一个事实,即随着研究人员建立更强大、能力更多样的模型,他们必须找到更多的文本来训练他们。

“大型语言模型研究人员越来越担心他们会耗尽这类数据”人工智能公司HuggingFace的研究员泰文·斯考表示。他没有参与Epoch的工作。

另一个可能导致问题的事实是,语言人工智能研究人员将他们用于训练模型的数据分为两类:高质量和低质量。

但论文的第一作者,Epoch研究员巴勃罗·维拉洛博斯指出,这两种类型之间的界限是十分模糊的。

高质量的文本内容通常是由专业作家撰写的,因此被认为写得更好。而被归为低质量的数据包括社交媒体上的帖子或4chan等网站上的评论,这些低质量文本的数量远远超过了那些被认为是高质量的数据。

研究人员通常只使用高质量的数据来训练模型,因为这是他们希望模型学習和效仿的语言类型。

这种方法已经在GPT-3之类的大型语言模型上实现了一些令人印象深刻的成果。

据南加州大学专门研究数据集质量的教授斯瓦巴·斯瓦扬迪普塔表示,克服这些数据限制的一种方法是重新评估何为“高质量”文本,何为“低质量”文本。

斯瓦扬迪普塔认为,如果数据短缺迫使人工智能研究人员将更多样化的数据集纳入到训练过程中,这对语言模型而言是一个“积极因素”。

研究人员还可以努力找到延长语言模型训练数据的使用寿命的方法。目前,由于性能和成本的限制,这些模型只在相同的数据上训练一次。

但斯瓦扬迪普塔表示,使用相同的数据多次训练一个模型也可能是可行的。

一些研究人员认为,对于语言模型来说,更大可能并不意味着更好。斯坦福大学的计算机科学教授珀西·梁说,有证据表明,提高模型的效率可以提高他们的能力,而不仅仅是增加他们的规模。

他解释说:“我们已经看到,在高质量数据上训练的小模型,其性能足以超过在低质量数据上训练的大模型。”

猜你喜欢
低质量高质量人工智能
坚持以高质量发展统揽全局
高质量项目 高质量发展
牢牢把握高质量发展这个根本要求
低质量实用新型专利申请授权对经济秩序的影响
“三部曲”促数学复习课高质量互动
2019:人工智能
人工智能与就业
数读人工智能
低质量的婚姻不如高质量的单身,是真的吗?(一)
破解学前教育低质量现象