生成式人工智能的研究现状和成长趋势 | 科技导报_模子_数据
AIGC的模型大致可分为2大类。一类是自然措辞模型,即输入和输出的内容均为自然措辞描述,例如,输入是一段笔墨,哀求写一段故事或者是一个对话系统,输出也是一段笔墨,输出知足指令哀求的一段笔墨,或者是和输入的笔墨进行对话。另一类是图像和多模态模型,即输入和输出是跨模态的,例如,输入笔墨输出视频,输入图片输出笔墨等。更进一步地,输入和输出都可以是多模态的,例如,输入笔墨加图片,输出一段视频序列和语音。这里的输出可以是重新天生的内容,也可以是对输入的编辑和修正。
1
自然措辞模型
自2018年以来,基于Transformer架构,大措辞模型开始逐步呈现,个中最著名确当属Google的来自Transformer的双向编码器表示(bidirectional encoder representations from transformer,BERT)模型和OpenAI的天生式预演习(generative pre-training,GPT)系列模型,其包括OpenAI于2018年率先提出的GPT-1模型,约有1.2亿个参数。紧接着,Google于2019年提出了BERT模型,约有3.4亿个参数,其整体性能优于GPT-1。随后,OpenAI迅速提出了GPT-2模型,拥有的参数量高达15亿,并在40GB的文本上进行了演习,实现了性能的进一步提升。之后,为实现更为精良的性能,OpenAI于2020年提出GPT-3模型,该模型具有1750亿个参数,其性能足以碾压之前的GPT-1、BERT和GPT-2模型。然而,由于缺少有效的勾引,GPT-3模型在天生文本内容时常常会涌现一些不令人满意的结果。
为办理这一问题,OpenAI提出了InstructGPT模型,详细通过人类反馈强化学习(reinforcement learning from human feedback,RLHF)机制勾引模型天生符合预期的内容结果。基于InstructGPT模型,OpenAI于2022年推出了ChatGPT,带来了AIGC面向大模型时期的浪潮。紧接着,OpenAI在2023年提出了GPT-4,其参数量高达到1.8万亿,整体性能令人惊叹。这些模型善于文本理解,在文本分类、实体检测和问题回答等能力上具有卓越的表现。同时,其他新兴的大模型,如Sora,也为AIGC领域带来了新的视角,Sora模型通过其独特的架构和进阶的多模态处理能力,进一步拓宽了自然措辞处理的运用范围。2024年,一些新的打破性研究事情进一步推动了NLP领域的发展。例如,Ding等提出了新的高效微调方法,极大地减少了大模型的资源需求,并提高了大措辞模型的适应性。Wu等对持续学习在NLP中的运用进行了深入磋商,提出了自然措辞处理未来可能的发展方向。NLP模型发展进程如图1所示。
从上述发展进程来看,AIGC在自然措辞模型的发展已经正式进入大措辞模型(large language model,LLM)时期。AIGC除了在自然措辞模型上取得了突飞年夜进的进展之外,在图像和多模态领域也取得了许多重大的打破性进展。
2
图像天生模型和多模态模型
受益于Transformer和扩散模型的涌现,AIGC在多模态模型上也取得了许多重大打破。2021年1月,OpenAI发布文本合成图像模型DALL-E,其卓越的天生效果令人感到震荡。同年,比拟措辞图像预演习(contrastive language-image pre-training,CLIP)模型问世。CLIP是一种结合了视觉措辞模型ViT和Transformer的多模态模型。它通过吸收大量文本和图像数据进行演习,在预演习过程中结合了视觉和措辞知识,实现了文本作监督旗子暗记演习可迁移视觉模型。由于CLIP在图像和文本处理上的强大能力,后续的许多多模态模型均与CLIP模型进行结合,从而实现了精良的结果。之后,DALL-E2和DALL-E3分别于2022年4月和2023年10月发布。DALL-E2和DALL-E3只须要寥寥几句文本就可以天生超高质量的全新图像,将文本天生图像的逼真度和措辞理解度提到了新的高度。除了DALL-E系列之外,Stable Diffusion和Midjourney也相继被推出,且天生效果广受好评。此外,基于Diffusion模型,AIGC在视频合成领域也取得了显著进步。Gen-2和Pika已经可以天生连贯的视频,但天生视频的质量和运动多样性还有待提高。在天生视频领域,目前最前辈的模型是2023年12月发布的I2VGen-XL,它通过优化最初的600个去噪步从而实现了具有韶光和空间同等性的高清视频天生结果,视频分辨率可以达到1280×720。图2总结了基于VAE、GAN和Diffusion天生模型的发展过程。
天生式人工智能的过程与运用前景
受益于打算资源和数据量的快速增长,AIGC算法在文本、图像和多模态信息处理方面均取得了令人瞩目的造诣,这极大促进了AIGC在各个行业的运用落地。AIGC代表着人工智能领域的前沿技能,正在以前所未有的速率转变人们的事情办法、创意过程和日常生活。
1
AI的学习过程
AIGC的学习涉及到深度神经网络中的天生对抗网络(GAN)、变分自编码器(VAE)等技能。这些模型通过竞争学习过程,个中一个天生模型致力于创建越来越真实的数据,而另一个判别模型致力于更好地区分真实数据与天生数据。它们的共同目标是提高天生模型在未见数据上的泛化能力。此外,AIGC的演习不仅需把稳数据量的大小,更需考量数据质量与多样性以及模型的演习策略和正则化技巧,以防模型过早地陷入局部最优而丢失泛化性能。
2、传统AI的学习过程
传统AI的学习常日依赖于大量标记数据集,采取监督学习算法,通过反复迭代来降落模型预测与真实场景之间的偏差。此学习办法在特定的任务上,如图像分类、语音识别等单一模态数据处理中表现突出。比较之下,AIGC则须要从数据中学习到潜在的分布,并根据这些学习到的分布来天生新的数据实例,这对模型在理解与把握数据内在特色方面提出了更高的哀求。这一过程更像是“学习去天生”,而非“学习去预测”。
3、深度学习与迁移学习
AIGC的学习方法还与深度学习紧密干系,后者通过多层神经网络构造从繁芜数据中自动学习到高层次特色。当这些深度学习模型合营迁移学习策略时,就可以将在一个领域学到的知识运用到另一个领域,从而在学习新任务时节省资源并提升效率。
2 AIGC与传统AI的差异
AIGC的主旨在于创造,不仅是对现有信息的复现或者复制,而是在理解数据的根本上创造出全新的数据实例。这哀求AIGC能够学习数据的内在分布和构造,进而天生与真实数据具有高度相似性,但又非完备相同的新数据。相反,传统AI,尤其是基于监督学习的模型,更多地关注于“预测”。它们通过从大量的输入—输出实例中学习,来预测给定输入所对应的输出。这些模型的紧张目标是准确性和可靠性,而不直接关注创造性。
2、模型构造和演习办法
AIGC常用的天生对抗网络(GAN)和变分自编码器(VAE)在模型构造上具有独特性。例如,GAN通过引入天生器和鉴别器的对抗演习,仿照了一个迷你“博弈场”;而VAE则利用概率图模型来优化数据的潜在空间表示。传统AI模型,如回归模型、决策树、支持向量机(SVM)等,则常日具有更为直接的构造,它们通过最小化实际输出和预测输出之间的差异来进行演习。
3、数据处理办法
AIGC能够处理和天生的数据类型更为广泛,包括但不限于文本、图像、音频等。它们在处理数据时不仅关注特定的任务或标签,而且试图理解数据的全局属性和构造。而传统AI常日对特定的任务或问题进行优化,它们在数据处理上每每须要明确的标签信息,才能进行任务驱动的学习。
4、运用处景
AIGC因其独特的创造能力,在艺术创作、数据增强、虚拟环境仿照等领域展示了广泛的运用前景,能够帮助设计师创作新颖的设计方案,为研究职员供应丰富的演习数据,或为游戏和VR(虚拟现实)家当创造逼真的虚拟环境。传统AI则更多运用于数据剖析、预测建模、自动化掌握等领域,例如,在金融领域进行风险评估,在医疗领域进行疾病诊断,在制造业进行故障预测等。
理解AIGC与传统AI的差异不仅能帮助人们更合理地选用工具办理问题,也为AI的未来发展打开了新的视野和想象空间。
3 AIGC运用现状
AIGC当前最大的运用前景在于其能够与用户进行互动式互换,紧张分为2个方面,一是谈天式互换,二是内容咨询式互换。谈天式互换紧张可以用于情绪谈天机器人,帮助患孤独症、烦闷症等精神疾病的人群缓解病情,赞助年夜夫制订出对应的治疗方案。在内容咨询互换方面,可以面向各个行业领域构建AIGC内容咨询平台,如医疗咨询、法律咨询、生活知识咨询等。一方面,比较于传统的搜索平台,咨询平台能够通过互换的形式更好地明确用户的咨询需求,从而给出更有效的咨询结果。另一方面,构建的AIGC咨询平台能帮助不同领域的事情职员提高效率。例如,在医疗和法律咨询方面,用户可以根据自身需求在咨询平台中得到基本的建议,再去乞助于年夜夫或者状师。
2、赞助设计
AIGC在赞助设计层面具有广泛的运用前景。在教诲行业,AIGC可以为教诲事情者供应课程设计材料,通过自动创建和更新课程材料,西席只须要基于天生的课程材料进行进一步的修正即可,这大大地节省了西席的韶光和精力。此外,AIGC可以帮助学生撰写日常报告等内容,并且AIGC能够对撰写的内容进行语法纠正、创造薄弱环节,并给出内容改进建议,帮助学生从缺点中吸取教训,逐步提高写作能力。在媒体行业,AIGC可以赞助新闻事情者及时撰写紧急事宜的新闻宣布,并自动天生新闻标题,帮助新闻业提高效率和反应速率。此外,AIGC可以实现全天24小时的虚拟主持人新闻播报,能够减轻新闻事情者的包袱。在电影行业,AIGC能够赞助进行剧本的加工事情,将老的剧本加工为精良的新剧本,之后再由导演和编剧进行进一步的修正。此外,它还可以提升电影的视觉效果,例如,改变电影画面的色彩化和分辨率等。除了上述行业之外,AIGC在打算机、医药和绘画行业都可以赞助事情者进行干系的设计和研究,例如,在打算机行业,它可以自动天生高质量的代码,并进行代码测试和重构事情;在医药行业,它能够赞助进行药物研发,进行蛋白质构造预测、蛋白质序列设计事情等;在绘画行业,AIGC可以赞助进行艺术品的保护和修复,能够将一些受损的艺术品规复至初始状态。
3、内容创作
AIGC在内容创作层面具有良好的发展前景。在音乐行业,AIGC能够实现音乐的全过程创作,歌词、曲调、旋律等内容均可以由AIGC自动化天生。此外,在音乐创作过程中,它能够供应不同风格类型的音乐供用户选择。在绘画行业,AIGC可以制作出分歧凡响的繁芜艺术作品,它可以通过剖析图片来天生配色方案、图案和纹理信息,并创作出各种艺术形式的画作,如油墨画、抽象画、中国山水画和水墨画等。在广告行业,AIGC能够自动化天生广告内容、海报以及设计徽标。在视频行业,AIGC能够天生具有创意的短视频内容,同时也可以天生电影场景内容。AIGC内容创作的上风在于它能够基于同样的内容自动化天生多种多样的结果供用户选择,能够较好地知足不同行业用户的需求。
4、个性化定制
AIGC在个性化定制层面具有极高的运用潜力。在教诲行业,AIGC可以供应个性化的辅导,如可以天生独特幼儿外语传授教化产品,吸引儿童的把稳力,调动其积极性,并供应一个有趣的学习环境;可以帮助高年级学生理解某些理论、观点和不同的措辞文章,使其更有效地学习。在游戏行业,AIGC许可用户根据自身须要对游戏场景和故事情节进行个性化定制,使游戏体验更加身临其境。更进一步地,用户可以在游戏中举办大型活动,如演唱会、画展、毕业仪式等,使得全体参与职员具有独特的非凡体验。除了上述运用之外,AIGC在个性化定制层面最大的运用前景是实现数字永生。现阶段,利用AIGC技能已经能够实现人说话声音的改变、三维人像合成及内容互换。基于现有的AIGC技能及后续不断更新迭代的技能,只要大量网络整理某个人的语音、人像及互换模式这些数据,然后依赖这些数据就能够演习出此人的人物永生模型。该模型能够仿照此人说话的声音和办法,能够呈现此人的三维样貌,能够以此人的说话办法与他人沟通,如此便初步实现了此人的数字永生。纵然在此人逝去之后,其他人也可以通过此人的人物永生模型与其进行互换。
天生式人工智能的潜在风险
在全面认识天生式人工智能运用潜力的同时,也必须正视伴随其发展涌现的潜在风险。
1
知识产权的争议
2
数据隐私的威胁
3
道德利用的寻衅
4
技能偏见的延续
5
就业领域的冲击
AIGC作为一个强大的工具,其所带来的潜在风险是多方面的,涉及社会、法律、伦理等多个层面。因此,加强对AIGC运用的监管、确立道德利用原则以及制订相应的法律框架,将是人们面临的紧迫任务。只有这样,才能确保科技进步在不危害个人与社会利益的条件下,为人类带来更大的福祉。
天生式人工智能的寻衅与发展趋势 1 紧张寻衅
1)研究门槛过高。当前性能精良的AIGC算法均是基于“三超”(超大规模参数、超大规模数据和超大规模打算资源)环境实现的,使得AIGC算法研究的本钱和门槛过高,让许多科研职员望而生畏。这种情形极大限定了AIGC算法研究的进程。
2)天生内容不可控。只管AIGC在文本、语音、图像、视频等多模态内容天生上取得了优质的天生效果,但内容天生的结果是不可控的。这种不可控紧张表示在AIGC算法可能会天生带歧视性、暴力性、违法性等内容结果,这会带来法律和社会道德层面的问题。
3)天生性能不稳定。当前的AIGC算法在一些特定研究领域(如文本天生图像、文本天生视频、语音天生图像等)偶尔会天生一些特殊差的结果,使得AIGC在这些领域的运用性较为一样平常。此外,一些特定的高风险领域(如医疗、金融做事、自动驾驶等)哀求算法出错率极低或零缺点,使得AIGC在这些领域的运用中只能起到一定的赞助浸染。
2 发展趋势
1)获取带标注的高质量数据。AIGC目前仍因此“暴力失事业”的办法实现了精良的性能,而要想实现“奇迹”,就须要基于“三超”环境进行研究,这又将大多数科研职员拒之门外。比较于“三超”环境,带标注的高质量数据能够在“三中”(中等规模参数、中等规模数据和中等规模打算资源)环境下实现精良性能。因此,未来须要在获取带标注的高质量数据上研究行之有效的方法,降落AIGC研究的门槛。
2)天生内容的检测和评估。AIGC现阶段面临的天生内容不可控问题的紧张缘故原由在于,在天生过程中没有对天生的内容进行检测评估导致了天生的带问题内容也被输出。因此,未来须要在天生内容的检测评估算法方面进行大量的研究,有效阻挡有问题内容的输出。
3)面向特定领域进行研究。一方面,AIGC在某些特定领域的表现差强人意。另一方面,当前性能精良的AIGC模型大多是面向许多领域的,使得这些模型在特定领域上的表现仍有较大提升空间。因此,未来须要面向各个特定领域进行针对性的模型研究,在提高模型性能的同时,也使模型具有更好的可运用性。
结论
天生式人工智能毋庸置疑地成为了当代科技发展中的一大亮点,它像一把双刃剑,既有着改变游戏规则的潜力,也伴随着不容忽略的风险和寻衅。未来天生式人工智能的发展须要合理利用其所带来好处的同时,也要规避其潜在风险,须要不仅关注技能本身的发展,还要动手制订相应的监管对策、法律框架及伦理准则。
未来,学术界、工业界和政策制订者需携手协作,通过跨领域互助与对话,不断完善对天生式人工智能的理解与运用,共同构建一个既能促进技能创新,又能确保社会公道与个人权利得到保护的生态环境,以此推动和实现天生式人工智能技能的康健发展,使其成为推动人类社会进步的正向力量。
本文作者:车璐、张志强、周金佳、李磊
作者简介:车璐,西南科技大学环境与资源学院,博士研究生,研究方向为人工智能多源数据领悟技能;周金佳(通信作者),法政大学,副教授,研究方向为天生式人工智能。
原文揭橥于《科技导报》2024年第12期,欢迎订阅查看。
内容为【科技导报】公众年夜众号原创,欢迎转载白名单回答后台「转载」
《科技导报》创刊于1980年,中国科协学术会刊,紧张刊登科学前沿和技能热点领域打破性的成果宣布、威信性的科学评论、引领性的高端综述,揭橥促进经济社会发展、完善科技管理、优化科研环境、造就科学文化、促进科技创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、智库不雅观点、科技评论、热点专题、综述、论文、学术聚焦、科学人文等。
本文系作者个人观点,不代表本站立场,转载请注明出处!