2006年,当时任职于伊利诺伊大学,现为斯坦福大学教授的李飞飞,看到了挖掘互联网数据对付人工智能研究的革命性意义。
措辞学研究已经确定了8万个“名词同义词集”,也便是描述同一事物的同义词组。
李飞飞博士认为,互联网上数十亿张图片一定包含了每个同义词集的数百个实例。
如果能够网络足够多的图片,就能构建一个前所未有的弘大数据库,为人工智能模型演习供应充足的素材。
“很多人都在关注模型,”她说,“但我们该当关注数据。
”ImageNet数据库由此出身,为人工智能,特殊是图像识别领域的研究带来了打破性进展。

人工智能公司即将面临数据枯竭_数据_人工智能 AI简讯

互联网不仅供应了图像,也供应了标注图像的资源。
一旦搜索引擎找到被认为是狗、猫、椅子或其他东西的图片,这些图片就会被人工进行检讨和标注。
这些人工标注者是通过亚马逊的众包平台Mechanical Turk招募的,该平台许可儿们通过完成大略的任务来赚取报酬。
终极,ImageNet数据库包含了数百万张经由人工致顿和验证的图片,为人工智能模型演习供应了宝贵的数据资源。
2012年,一个名为AlexNet的程序正是利用ImageNet数据库的部分数据进行演习,展示了“深度学习”技能的巨大潜力。
深度学习是指利用多层神经网络进行机器学习,AlexNet的成功标志着人工智能技能进入了一个新的发展阶段,也开启了人工智能研究的热潮,同时也带动了数据标注行业的兴起。

大型措辞模型 (LLM) 的后期发展也依赖于互联网数据,但演习办法有所不同。
与图像识别算法演习的目标是识别图片中的物体不同,LLM的演习目标是预测一段文本中缺失落的单词。
LLM的经典演习方法是“自我监督演习”,即让模型根据高下文信息来预测缺失落的单词,并根据预测结果不断调度模型参数,无需人工进行数据标注。

这种演习办法不须要人工标注和整理数据,但须要大量的文本数据。
模型演习利用的文本数据越多,模型的预测能力就越强。
互联网拥有海量的文本数据,这为LLM的演习供应了丰富的素材,就像储量丰富的石油资源一样,可以为当代工业供应源源不断的能源。
Common Crawl是一个包含500亿个网页的开放互联网数据库,被广泛用于人工智能研究。
近年来,随着人工智能模型规模的不断扩大,研究职员开始将更多的数据来源整合到模型演习中,例如包含数千本书本的Books3数据库。
然而,人工智能模型对数据的需求增长速率远远超过了互联网数据的增长速率。
研究公司Epoch AI估计,到2028年,互联网上高质量的文本数据将被人工智能公司全部用尽。
在业界,这被称为“数据墙”。
如何打破“数据墙”的限定,是人工智能未来发展面临的重大寻衅之一,很可能会阻碍人工智能技能的进一步发展。

为了应对数据枯竭的寻衅,人工智能公司正在探索各种办理方案。
一种方法是关注数据质量,而不是数据数量。
人工智能实验室不会大略地将所有互联网数据都用于模型演习,而是会对数据进行筛选和排序,以最大限度地提高模型的学习效率。
人工智能公司Databricks的纳文·饶表示,数据质量是不同人工智能模型之间“最紧张的差异化成分”。
高质量的数据不仅要包含关于天下的“真实信息”,还要包含大量的“推理”内容,例如学术教科书中的知识。
如何在不同的数据源之间进行权衡,以及如何安排不同类型数据的演习顺序,都是人工智能研究中的主要课题,目前还没有形成统一的标准和方法。

当数据不仅涉及不同的主题,而且采取不同的形式时,这些考虑成分会变得更加繁芜。
近年来,随着多模态人工智能技能的兴起,人工智能模型的演习数据不再局限于文本数据,还包括图像、***和音频等多种数据形式。
由于缺少新的文本数据,像OpenAI的GPT-4o和谷歌的Gemini这样的领先模型,在进行“自我监督演习”时,除了文本数据之外,还会利用图像、***和音频数据。
由于***文件的数据量非常弘大,因此对***数据的处理难度最高。
目前,人工智能模型常日只会剖析***中的部分帧,以简化演习过程。

无论利用哪种人工智能模型,数据所有权问题都越来越受到关注。
LLM演习利用的数据很多都受到版权保护,而人工智能公司在利用这些数据时,并没有征得权利持有人的赞许,也没有支付相应的用度。
一些人工智能模型乃至会绕过付费墙,获取未经授权的数据。
人工智能模型的开拓者声称,这种行为属于美国版权法中的“合理利用”范畴,就像人类可以阅读受版权保护的书本一样,人工智能模型也该当被许可利用这些数据进行学习。
但正如技能剖析师本尼迪克特·埃文斯所说,“规模的差异”会导致“原则的差异”。
当人工智能模型大规模利用受版权保护的数据进行演习时,“合理利用”的原则是否仍旧适用?这是一个值得磋商的法律问题。

面对人工智能公司对数据的巨大需求,不同的权利持有人正在采纳不同的应对策略。
盖蒂图片社起诉了图像天生公司Stability AI,指控其未经授权利用其图片库中的图片进行模型演习。
纽约时报也起诉了OpenAI和微软,指控其陵犯了数百万篇文章的版权。
而其他一些媒体机构则选择与人工智能公司互助,将数据授权给它们利用,并收取相应的用度。
例如,拥有华尔街日报的***集团就与人工智能公司签署了一项代价2.5亿美元的五年协议,许可其利用***集团旗下的***宣布进行模型演习。
《经济学人》杂志尚未就其与人工智能公司的关系表明态度。
其他一些文本和***数据供应商,例如代码托管平台Stack Overflow、社交媒体平台Reddit和X(原Twitter),也开始对人工智能公司收取数据访问用度,以此掩护自身权柄。

不同国家和地区对付人工智能模型利用受版权保护数据的态度也有所不同。
日本和以色列为了促进本国人工智能家当的发展,对数据利用的限定相对宽松。
而欧盟则没有“合理利用”的观点,对版权保护的态度更为严格。
随着数据交易市场的逐渐成熟,不同类型的数据价格将会涌现分解。
那些能够供应实时信息的专业数据将会更加昂贵,由于人工智能模型须要这些数据来保持其预测的准确性和时效性。

除了“自我监督演习”之外,人工智能模型还可以通过“演习后”的微调来进一步提升其性能。
“监督微调”是指利用人工网络或标注的问答数据对模型进行演习,让模型学习什么是“好的”答案。
“从人工反馈中强化学习”(RLHF)则是指根据用户的反馈来调度模型参数,例如根据用户对谈天机器人回答的点赞或反对来优化模型的回答策略。
这些方法都须要大量的人工标注数据,本钱较高,但也能够有效提升模型的性能。

随着互联网上可用于预演习的数据逐渐枯竭,“演习后”的微调变得越来越主要。
Scale AI和Surge AI等数据标注公司每年通过网络“演习后”数据赚取数亿美元。
Scale AI最近以140亿美元的估值完成了10亿美元的融资,这表明数据标注行业正在发达发展。
与早期的Mechanical Turk平台比较,现在的标注员收入更高,事情内容也更加专业。
最好的标注员每小时的收入高达100美元。
然而,虽然“演习后”的微调可以帮助提升模型性能,但这种方法治标不治本,无法从根本上办理数据枯竭的问题。

与其一点一点地推回数据墙,另一种办理方案是完备跳过它。
一种方法是利用合成数据,这些数据是机器天生的,因此是无限的,可以不受数据墙的限定。
AlphaGo Zero 是谷歌子公司 DeepMind 天生的一个模型,便是一个很好的例子。
该公司第一个成功的围棋模型是利用来自业余比赛的数百万步棋的数据进行演习的。
AlphaGo Zero 没有利用任何预先存在的数据。
相反,它在三天内通过与自己进行 490 万场比赛来学习围棋,并把稳到得胜的策略。
这种“强化学习”教会了它如何通过仿照大量可能的反应并选择最有可能得胜的反应来应对对手的行动,终极超越了依赖人类棋谱数据演习的AlphaGo,展现了“强化学习”方法的巨大潜力。

类似的方法可以用于LLM的演习,例如让模型逐步天生一篇数学证明。
LLM可以师长西席成多个第一步,然后由另一个经由人工专家数据演习的“助手”AI来判断哪一步最优,并以此为根本连续天生后续步骤。
这种由AI天生的反馈数据可以被视为一种合成数据,可以用于进一步演习LLM模型。
终极,LLM模型可以天生比一次性天生更优质的答案,而且模型本身的性能也会得到提升。
OpenAI联合创始人安德烈·卡帕西将这种通过多步骤思考来提高输出质量的方法称为“系统2”思维,这类似于人类寻思熟虑后的决策过程。
而目前LLM模型采取的“系统1”思维,则是指在没有经由寻思熟虑的情形下直接天生答案,类似于人类的直觉反应。

困难在于将这种方法扩展到医疗保健或教诲等领域。
在游戏中,有一个明确的得胜定义,并且更随意马虎网络有关某一步是否有利的数据。
在其他地方则比较棘手。
关于什么是“好的”决策的数据常日是从专家那里网络的。
但这本钱高昂,须要韶光,而且只是一个零散的办理方案。
此外,如何判断专家供应的决策是否精确,也是一个难题。

很明显,得到更多数据——无论是从专业来源网络、综合天生还是由人类专家供应——是坚持人工智能快速发展的关键。
像油田一样,最随意马虎得到的数据储备已经枯竭。
人工智能公司面临的寻衅是找到新的数据来源,或者开拓可持续的数据替代方案,才能让人工智能这列高速列车连续前行。