生成式人工智能的研究现状和成长趋势 | 科技导报_模子_数据

2025-01-10 15:23:00 智能问答

AIGC的模型大致可分为2大类。
一类是自然措辞模型，即输入和输出的内容均为自然措辞描述，例如，输入是一段笔墨，哀求写一段故事或者是一个对话系统，输出也是一段笔墨，输出知足指令哀求的一段笔墨，或者是和输入的笔墨进行对话。
另一类是图像和多模态模型，即输入和输出是跨模态的，例如，输入笔墨输出视频，输入图片输出笔墨等。
更进一步地，输入和输出都可以是多模态的，例如，输入笔墨加图片，输出一段视频序列和语音。
这里的输出可以是重新天生的内容，也可以是对输入的编辑和修正。

生成式人工智能的研究现状和成长趋势 | 科技导报_模子_数据智能问答

自然措辞模型

在AI天生内容的早期，不同领域，如自然措辞处理（natural language processing，NLP）和图像天生领域之间，没有太多的重叠。
在NLP领域，最初是利用N-gram朴素措辞模型，学习单词分布，通过前一个字符来预测下一个字符。
由于该模型影象能力有限，以是无法天生超过一定长度的连贯文本。
比较之下，基于神经网络措辞模型能够天生较长的连贯文本。
用于建模措辞的第1类神经网络是循环神经网络（recurrent neural networks，RNN），RNN逐个阅读单词，同时更新思维状态，使得该模型具备短期影象。
由于RNN存在着短期依赖瓶颈问题，是非期影象网络（long-short term memory，LSTM）被挖掘出来并用于长文本天生任务之中。
在理论层面，LSTM可以实现永劫光影象。
然而，在详细的实践中，经由几十到100个词后，该模型就开始偏离主题。
为理解决这一问题，一种基于把稳力机制的新型神经网络构造Transformer在2017年被提出，同时受到了广泛关注。
该架构的并行化处理使其能够充分利用图形处理单元（graphics processing unit，GPU）。
此外，该构造在设计层面上许可不断地堆叠编码器或解码器构造，使得全体网络构造能够变得更为繁芜，这为后续大措辞模型的涌现奠定了根本。

自2018年以来，基于Transformer架构，大措辞模型开始逐步呈现，个中最著名确当属Google的来自Transformer的双向编码器表示（bidirectional encoder representations from transformer，BERT）模型和OpenAI的天生式预演习（generative pre-training，GPT）系列模型，其包括OpenAI于2018年率先提出的GPT-1模型，约有1.2亿个参数。
紧接着，Google于2019年提出了BERT模型，约有3.4亿个参数，其整体性能优于GPT-1。
随后，OpenAI迅速提出了GPT-2模型，拥有的参数量高达15亿，并在40GB的文本上进行了演习，实现了性能的进一步提升。
之后，为实现更为精良的性能，OpenAI于2020年提出GPT-3模型，该模型具有1750亿个参数，其性能足以碾压之前的GPT-1、BERT和GPT-2模型。
然而，由于缺少有效的勾引，GPT-3模型在天生文本内容时常常会涌现一些不令人满意的结果。

为办理这一问题，OpenAI提出了InstructGPT模型，详细通过人类反馈强化学习（reinforcement learning from human feedback，RLHF）机制勾引模型天生符合预期的内容结果。
基于InstructGPT模型，OpenAI于2022年推出了ChatGPT，带来了AIGC面向大模型时期的浪潮。
紧接着，OpenAI在2023年提出了GPT-4，其参数量高达到1.8万亿，整体性能令人惊叹。
这些模型善于文本理解，在文本分类、实体检测和问题回答等能力上具有卓越的表现。
同时，其他新兴的大模型，如Sora，也为AIGC领域带来了新的视角，Sora模型通过其独特的架构和进阶的多模态处理能力，进一步拓宽了自然措辞处理的运用范围。
2024年，一些新的打破性研究事情进一步推动了NLP领域的发展。
例如，Ding等提出了新的高效微调方法，极大地减少了大模型的资源需求，并提高了大措辞模型的适应性。
Wu等对持续学习在NLP中的运用进行了深入磋商，提出了自然措辞处理未来可能的发展方向。
NLP模型发展进程如图1所示。

图1 NLP模型发展进程

从上述发展进程来看，AIGC在自然措辞模型的发展已经正式进入大措辞模型（large language model，LLM）时期。
AIGC除了在自然措辞模型上取得了突飞年夜进的进展之外，在图像和多模态领域也取得了许多重大的打破性进展。

图像天生模型和多模态模型

在打算机视觉领域，传统的非深度学习图像天生算法大多利用纹理合成和纹理映射等技能。
2012年，AlexNet的提出使得深度学习方法再一次回归到科研职员的视野之中。
基于深度学习，在图像天生领域中所有类型的图像天生模型都旨在学习演习集的真实数据分布，从而可以进一步产生具有一些变革的新数据。
然而，由于无法学习到确切分布，以是现有的方法只能试图得到与真实数据分布尽可能相似的分布模型来天生图像。
个中，一种常用和有效的天生图像的方法是变分自动编码器（variational autoencoder，VAE），VAE旨在最大化数据对数似然下界来学习，它既能学习天生模型又可以推理模型。
2014年12月，图像天生领域涌现了一个具有里程碑意义的网络构造——天生对抗网络（generative adversarial networks，GAN）。
GAN包含一个天生器和一个判别器，天生器模型用于学习捕获数据分布，判别器模型用于判别样本是来自真实的数据分布还是天生器模型分布。
GAN的核心是旨在实现天生器和判别器之间的对抗平衡，从而让天生器模型能够天生高质量的图像结果。
GAN被提出之后，在各个领域都得到了广泛运用，个中最具代表性的构造是StyleGAN系列，其核心思想是风格调制，全体网络先将先验噪声映射到一个新的隐空间中，映射后的隐变量输入到天生器的多层次中，通过规范化层注入到天生过程，使模型在天生高质量图像根本上，做到层次特色可控。
如天生人脸时，低层次掌握是不同五官或人脸特色天生，高层次特色决定天生颜色。
StyleGAN因其具有良好的可控性常被用于风格迁移或图像编辑任务之中。
除了基于VAE和GAN构造之外，随着Transformer架构的涌现，在图像天生领域呈现了一批基于Transformer的天生方法。
2020年，Vision Transformer（ViT）和Swin Transformer通过将Transformer架构与视觉组件相结合，实现了高质量的图像天生效果。
此外，在图像天生领域，扩散（Diffusion）模型的引入实现了优质的图像天生效果，并开辟了图像天生的新办法。

受益于Transformer和扩散模型的涌现，AIGC在多模态模型上也取得了许多重大打破。
2021年1月，OpenAI发布文本合成图像模型DALL-E，其卓越的天生效果令人感到震荡。
同年，比拟措辞图像预演习（contrastive language-image pre-training，CLIP）模型问世。
CLIP是一种结合了视觉措辞模型ViT和Transformer的多模态模型。
它通过吸收大量文本和图像数据进行演习，在预演习过程中结合了视觉和措辞知识，实现了文本作监督旗子暗记演习可迁移视觉模型。
由于CLIP在图像和文本处理上的强大能力，后续的许多多模态模型均与CLIP模型进行结合，从而实现了精良的结果。
之后，DALL-E2和DALL-E3分别于2022年4月和2023年10月发布。
DALL-E2和DALL-E3只须要寥寥几句文本就可以天生超高质量的全新图像，将文本天生图像的逼真度和措辞理解度提到了新的高度。
除了DALL-E系列之外，Stable Diffusion和Midjourney也相继被推出，且天生效果广受好评。
此外，基于Diffusion模型，AIGC在视频合成领域也取得了显著进步。
Gen-2和Pika已经可以天生连贯的视频，但天生视频的质量和运动多样性还有待提高。
在天生视频领域，目前最前辈的模型是2023年12月发布的I2VGen-XL，它通过优化最初的600个去噪步从而实现了具有韶光和空间同等性的高清视频天生结果，视频分辨率可以达到1280×720。
图2总结了基于VAE、GAN和Diffusion天生模型的发展过程。

图2 基于VAE、GAN和Diffusion的天生模型发展进程

天生式人工智能的过程与运用前景

受益于打算资源和数据量的快速增长，AIGC算法在文本、图像和多模态信息处理方面均取得了令人瞩目的造诣，这极大促进了AIGC在各个行业的运用落地。
AIGC代表着人工智能领域的前沿技能，正在以前所未有的速率转变人们的事情办法、创意过程和日常生活。

AI的学习过程

1、AIGC的学习过程

AIGC的学习涉及到深度神经网络中的天生对抗网络（GAN）、变分自编码器（VAE）等技能。
这些模型通过竞争学习过程，个中一个天生模型致力于创建越来越真实的数据，而另一个判别模型致力于更好地区分真实数据与天生数据。
它们的共同目标是提高天生模型在未见数据上的泛化能力。
此外，AIGC的演习不仅需把稳数据量的大小，更需考量数据质量与多样性以及模型的演习策略和正则化技巧，以防模型过早地陷入局部最优而丢失泛化性能。

2、传统AI的学习过程

传统AI的学习常日依赖于大量标记数据集，采取监督学习算法，通过反复迭代来降落模型预测与真实场景之间的偏差。
此学习办法在特定的任务上，如图像分类、语音识别等单一模态数据处理中表现突出。
比较之下，AIGC则须要从数据中学习到潜在的分布，并根据这些学习到的分布来天生新的数据实例，这对模型在理解与把握数据内在特色方面提出了更高的哀求。
这一过程更像是“学习去天生”，而非“学习去预测”。

3、深度学习与迁移学习

AIGC的学习方法还与深度学习紧密干系，后者通过多层神经网络构造从繁芜数据中自动学习到高层次特色。
当这些深度学习模型合营迁移学习策略时，就可以将在一个领域学到的知识运用到另一个领域，从而在学习新任务时节省资源并提升效率。

AIGC与传统AI的差异

AIGC和传统AI在目标和方法、模型构造和演习办法、数据处理办法以及运用处景等多个方面展现出明显的差异性。

1、目标和方法的差异

AIGC的主旨在于创造，不仅是对现有信息的复现或者复制，而是在理解数据的根本上创造出全新的数据实例。
这哀求AIGC能够学习数据的内在分布和构造，进而天生与真实数据具有高度相似性，但又非完备相同的新数据。
相反，传统AI，尤其是基于监督学习的模型，更多地关注于“预测”。
它们通过从大量的输入—输出实例中学习，来预测给定输入所对应的输出。
这些模型的紧张目标是准确性和可靠性，而不直接关注创造性。

2、模型构造和演习办法

AIGC常用的天生对抗网络（GAN）和变分自编码器（VAE）在模型构造上具有独特性。
例如，GAN通过引入天生器和鉴别器的对抗演习，仿照了一个迷你“博弈场”；而VAE则利用概率图模型来优化数据的潜在空间表示。
传统AI模型，如回归模型、决策树、支持向量机（SVM）等，则常日具有更为直接的构造，它们通过最小化实际输出和预测输出之间的差异来进行演习。

3、数据处理办法

AIGC能够处理和天生的数据类型更为广泛，包括但不限于文本、图像、音频等。
它们在处理数据时不仅关注特定的任务或标签，而且试图理解数据的全局属性和构造。
而传统AI常日对特定的任务或问题进行优化，它们在数据处理上每每须要明确的标签信息，才能进行任务驱动的学习。

4、运用处景

AIGC因其独特的创造能力，在艺术创作、数据增强、虚拟环境仿照等领域展示了广泛的运用前景，能够帮助设计师创作新颖的设计方案，为研究职员供应丰富的演习数据，或为游戏和VR（虚拟现实）家当创造逼真的虚拟环境。
传统AI则更多运用于数据剖析、预测建模、自动化掌握等领域，例如，在金融领域进行风险评估，在医疗领域进行疾病诊断，在制造业进行故障预测等。

理解AIGC与传统AI的差异不仅能帮助人们更合理地选用工具办理问题，也为AI的未来发展打开了新的视野和想象空间。

AIGC运用现状

当前，AIGC的运用可以分为以下4个方面。
（1）内容互换。
可以跟用户进行互换，并对用户提出的问题给予相应的解答。
（2）赞助设计。
可以赞助用户对相应的内容进行制作、修正和设计。
（3）内容创作。
可以基于用户的需求创作出全新的内容。
（4）个性化定制。
可以让用户根据需求对天生的内容进行个性化定制。

1、内容互换

AIGC当前最大的运用前景在于其能够与用户进行互动式互换，紧张分为2个方面，一是谈天式互换，二是内容咨询式互换。
谈天式互换紧张可以用于情绪谈天机器人，帮助患孤独症、烦闷症等精神疾病的人群缓解病情，赞助年夜夫制订出对应的治疗方案。
在内容咨询互换方面，可以面向各个行业领域构建AIGC内容咨询平台，如医疗咨询、法律咨询、生活知识咨询等。
一方面，比较于传统的搜索平台，咨询平台能够通过互换的形式更好地明确用户的咨询需求，从而给出更有效的咨询结果。
另一方面，构建的AIGC咨询平台能帮助不同领域的事情职员提高效率。
例如，在医疗和法律咨询方面，用户可以根据自身需求在咨询平台中得到基本的建议，再去乞助于年夜夫或者状师。

2、赞助设计

AIGC在赞助设计层面具有广泛的运用前景。
在教诲行业，AIGC可以为教诲事情者供应课程设计材料，通过自动创建和更新课程材料，西席只须要基于天生的课程材料进行进一步的修正即可，这大大地节省了西席的韶光和精力。
此外，AIGC可以帮助学生撰写日常报告等内容，并且AIGC能够对撰写的内容进行语法纠正、创造薄弱环节，并给出内容改进建议，帮助学生从缺点中吸取教训，逐步提高写作能力。
在媒体行业，AIGC可以赞助新闻事情者及时撰写紧急事宜的新闻宣布，并自动天生新闻标题，帮助新闻业提高效率和反应速率。
此外，AIGC可以实现全天24小时的虚拟主持人新闻播报，能够减轻新闻事情者的包袱。
在电影行业，AIGC能够赞助进行剧本的加工事情，将老的剧本加工为精良的新剧本，之后再由导演和编剧进行进一步的修正。
此外，它还可以提升电影的视觉效果，例如，改变电影画面的色彩化和分辨率等。
除了上述行业之外，AIGC在打算机、医药和绘画行业都可以赞助事情者进行干系的设计和研究，例如，在打算机行业，它可以自动天生高质量的代码，并进行代码测试和重构事情；在医药行业，它能够赞助进行药物研发，进行蛋白质构造预测、蛋白质序列设计事情等；在绘画行业，AIGC可以赞助进行艺术品的保护和修复，能够将一些受损的艺术品规复至初始状态。

3、内容创作

AIGC在内容创作层面具有良好的发展前景。
在音乐行业，AIGC能够实现音乐的全过程创作，歌词、曲调、旋律等内容均可以由AIGC自动化天生。
此外，在音乐创作过程中，它能够供应不同风格类型的音乐供用户选择。
在绘画行业，AIGC可以制作出分歧凡响的繁芜艺术作品，它可以通过剖析图片来天生配色方案、图案和纹理信息，并创作出各种艺术形式的画作，如油墨画、抽象画、中国山水画和水墨画等。
在广告行业，AIGC能够自动化天生广告内容、海报以及设计徽标。
在视频行业，AIGC能够天生具有创意的短视频内容，同时也可以天生电影场景内容。
AIGC内容创作的上风在于它能够基于同样的内容自动化天生多种多样的结果供用户选择，能够较好地知足不同行业用户的需求。

4、个性化定制

AIGC在个性化定制层面具有极高的运用潜力。
在教诲行业，AIGC可以供应个性化的辅导，如可以天生独特幼儿外语传授教化产品，吸引儿童的把稳力，调动其积极性，并供应一个有趣的学习环境；可以帮助高年级学生理解某些理论、观点和不同的措辞文章，使其更有效地学习。
在游戏行业，AIGC许可用户根据自身须要对游戏场景和故事情节进行个性化定制，使游戏体验更加身临其境。
更进一步地，用户可以在游戏中举办大型活动，如演唱会、画展、毕业仪式等，使得全体参与职员具有独特的非凡体验。
除了上述运用之外，AIGC在个性化定制层面最大的运用前景是实现数字永生。
现阶段，利用AIGC技能已经能够实现人说话声音的改变、三维人像合成及内容互换。
基于现有的AIGC技能及后续不断更新迭代的技能，只要大量网络整理某个人的语音、人像及互换模式这些数据，然后依赖这些数据就能够演习出此人的人物永生模型。
该模型能够仿照此人说话的声音和办法，能够呈现此人的三维样貌，能够以此人的说话办法与他人沟通，如此便初步实现了此人的数字永生。
纵然在此人逝去之后，其他人也可以通过此人的人物永生模型与其进行互换。

天生式人工智能的潜在风险

在全面认识天生式人工智能运用潜力的同时，也必须正视伴随其发展涌现的潜在风险。

知识产权的争议

AIGC技能能够创造出全新的艺术作品、音乐、文本等内容，这对付知识产权的定义提出了新的寻衅。
既存法律框架是建立在人类作者身上的，而AI创造出的作品并没有明确的“人类”作者。
因此，谁拥有和掌握由AI天生的作品的知识产权，以及这些作品是否应该被授予知识产权保护，是目前亟待解答的问题。

数据隐私的威胁

AIGC常日须要大量的数据进行演习，这些数据不仅包括公开信息，而且可能包含个人敏感数据。
如果不加以妥善管理，就可能导致未经授权的数据利用，进而陵犯个人隐私权柄。
此外，AIGC天生的虚假内容（如深度假造）可能会用于社交工程攻击，给个人隐私带来更加直接的威胁。

道德利用的寻衅

在没有充分监管的情形下，AIGC的输出可能会被用于不道德的目的。
例如，制造虚假新闻、网络钓鱼信息，乃至是用于假造历史证据等。
这些行为不仅会给社会带来混乱，还可能威胁到社会制度和国家安全。

技能偏见的延续

AI系统常日会反响其演习数据的偏见。
如果AIGC利用的数据集包含有性别、种族或其他形式的偏见，那么它天生的内容也可能会延续这些偏见，从而加剧现实天下中的不平等和不公道。

就业领域的冲击

类似于其他的自动化技能，AIGC在提高效率的同时，也可能导致某些事情领域能被机器取代，从而影响人类相应的就业机会。
这不仅仅是对低技能劳动力市场的影响，也包括写作、设计等创意家当领域的专业事情。

AIGC作为一个强大的工具，其所带来的潜在风险是多方面的，涉及社会、法律、伦理等多个层面。
因此，加强对AIGC运用的监管、确立道德利用原则以及制订相应的法律框架，将是人们面临的紧迫任务。
只有这样，才能确保科技进步在不危害个人与社会利益的条件下，为人类带来更大的福祉。

天生式人工智能的寻衅与发展趋势

紧张寻衅

只管AIGC已经在各种天生式任务中展现了令人瞩目的造诣，但AIGC目前仍存在诸多寻衅，详细有以下几个方面。

1）研究门槛过高。
当前性能精良的AIGC算法均是基于“三超”（超大规模参数、超大规模数据和超大规模打算资源）环境实现的，使得AIGC算法研究的本钱和门槛过高，让许多科研职员望而生畏。
这种情形极大限定了AIGC算法研究的进程。

2）天生内容不可控。
只管AIGC在文本、语音、图像、视频等多模态内容天生上取得了优质的天生效果，但内容天生的结果是不可控的。
这种不可控紧张表示在AIGC算法可能会天生带歧视性、暴力性、违法性等内容结果，这会带来法律和社会道德层面的问题。

3）天生性能不稳定。
当前的AIGC算法在一些特定研究领域（如文本天生图像、文本天生视频、语音天生图像等）偶尔会天生一些特殊差的结果，使得AIGC在这些领域的运用性较为一样平常。
此外，一些特定的高风险领域（如医疗、金融做事、自动驾驶等）哀求算法出错率极低或零缺点，使得AIGC在这些领域的运用中只能起到一定的赞助浸染。

发展趋势

当前的AIGC面临着上述的诸多寻衅，整体上处于快速发展阶段。
未来AIGC的发展趋势紧张包含以下几个方面。

1）获取带标注的高质量数据。
AIGC目前仍因此“暴力失事业”的办法实现了精良的性能，而要想实现“奇迹”，就须要基于“三超”环境进行研究，这又将大多数科研职员拒之门外。
比较于“三超”环境，带标注的高质量数据能够在“三中”（中等规模参数、中等规模数据和中等规模打算资源）环境下实现精良性能。
因此，未来须要在获取带标注的高质量数据上研究行之有效的方法，降落AIGC研究的门槛。

2）天生内容的检测和评估。
AIGC现阶段面临的天生内容不可控问题的紧张缘故原由在于，在天生过程中没有对天生的内容进行检测评估导致了天生的带问题内容也被输出。
因此，未来须要在天生内容的检测评估算法方面进行大量的研究，有效阻挡有问题内容的输出。

3）面向特定领域进行研究。
一方面，AIGC在某些特定领域的表现差强人意。
另一方面，当前性能精良的AIGC模型大多是面向许多领域的，使得这些模型在特定领域上的表现仍有较大提升空间。
因此，未来须要面向各个特定领域进行针对性的模型研究，在提高模型性能的同时，也使模型具有更好的可运用性。

结论

天生式人工智能毋庸置疑地成为了当代科技发展中的一大亮点，它像一把双刃剑，既有着改变游戏规则的潜力，也伴随着不容忽略的风险和寻衅。
未来天生式人工智能的发展须要合理利用其所带来好处的同时，也要规避其潜在风险，须要不仅关注技能本身的发展，还要动手制订相应的监管对策、法律框架及伦理准则。

未来，学术界、工业界和政策制订者需携手协作，通过跨领域互助与对话，不断完善对天生式人工智能的理解与运用，共同构建一个既能促进技能创新，又能确保社会公道与个人权利得到保护的生态环境，以此推动和实现天生式人工智能技能的康健发展，使其成为推动人类社会进步的正向力量。

本文作者：车璐、张志强、周金佳、李磊

作者简介：车璐，西南科技大学环境与资源学院，博士研究生，研究方向为人工智能多源数据领悟技能；周金佳（通信作者），法政大学，副教授，研究方向为天生式人工智能。

原文揭橥于《科技导报》2024年第12期，欢迎订阅查看。

内容为【科技导报】公众年夜众号原创，欢迎转载白名单回答后台「转载」

☟

《科技导报》创刊于1980年，中国科协学术会刊，紧张刊登科学前沿和技能热点领域打破性的成果宣布、威信性的科学评论、引领性的高端综述，揭橥促进经济社会发展、完善科技管理、优化科研环境、造就科学文化、促进科技创新和科技成果转化的决策咨询建议。
常设栏目有院士卷首语、智库不雅观点、科技评论、热点专题、综述、论文、学术聚焦、科学人文等。

《科技导报》微信"大众年夜众平台创建于2014年，紧张刊登《科技导报》期刊内容要点，宣布热点科技问题、科技事宜、科学人物，打造与纸刊紧密联系又特色光鲜的新媒体平台。

科技导报"大众号聚拢了数万名专心学术的未来之星和学术大咖，添加编辑微信，让精良的你有机会与志趣相同的人相遇。

本文系作者个人观点，不代表本站立场，转载请注明出处！

天生模型