变革与立异:措辞研究中的生成式人工智能_措辞_人工智能
近年来,天生式人工智能技能在各个领域都展现了广泛的运用代价。其事理是利用繁芜的算法、模型、规则,通过学习大规模数据,创造性地天生新的数据。这项技能能够天生文本、图片、声音、视频、代码等多种类型的内容,超越了传统软件的数据处理和剖析能力。2022年末,OpenAI推出的谈天机器人ChatGPT标志着这一技能在文本天生领域取得了显著进步。随之,该技能从单一措辞天生逐步向多模态、具身化快速发展。
在措辞研究领域,天生式人工智能作为一种强大的工具,常用于处理和天生措辞数据,并且能够模拟人类措辞的创造性和多样性,其模型的运用广泛覆盖文本天生、内容创作、机器翻译等方面。在该领域,天生式人工智能的技能核心是演习大规模措辞模型,继而理解、天生符合特定需求的文本,以自然、连贯的办法与用户进行交互。从这个意义上讲,天生式人工智能使措辞研究领域呈现出“数字化”特色,而措辞数据一定程度上被视为“资产”,具有“代价”。换言之,措辞数据的转型促进了措辞研究领域中措辞知识生产范式的变迁,乃至措辞做事行业中生产力及生产关系的重大变革,继而推进了该领域理论与方法的创新。
措辞研究的机遇与寻衅
正如OpenAI联合创始人兼首席科学家伊尔亚·苏茨克维提出的,天生式人工智能的事情事理是不断培训神经网络体系,使其能够预测下一个词汇。在此过程中,基于网络的海量文本数据,其不仅进行表面层次的自我学习,还须要在当下预测的单词和过去的单词之间达成一定的逻辑上的同等,而历史数据还可用于优化模型并投射未来单词预测。从这个意义上讲,天生式人工智能为措辞学研究带来了诸多方面的机遇,有力助推了措辞理论与运用的纵深发展。以自然措辞处理(NLP)为例,传统范式进行文本处理常日分为多个阶段,包括词法处理、句法处理、语义处理,以及特定领域任务处理等,依次处理文本以提取特色并完成终极任务。个中,词法处理是将连续的文本分割成独立的词语或词组,识别并分类文本中的命名实体,如人名、地名、组织机构等,以帮助确定文本中的关键实体,提高后续处理的准确性。句法处理包括识别句中词语的依存关系,以及句中的身分构造,如主语、谓语、宾语等。语义处理包括词义消歧、代词消解、语义角色标注(如施事、受事、工具等)。此外,还要进行特定领域的任务处理,包括剖析文本中的情绪方向,判断其情绪极性(如正面、负面、中性)等。在传统NLP范式下,每个处理步骤都是独立的模块,由不同的模型完成。每个模型须要在专门标注的数据集上进行演习,以确保在特界说务上的表现最佳。比较之下,天生式人工智能采取深度学习的端到端(end-to-end)方法,直接从数据中学习特色,避免了传统自然措辞处理中依赖手工设计特色工程的繁芜性和局限性。以OpenAI最新推出的ChatGPT-4o为例,个中包含了数以万亿计的参数,冲破了传统NLP范式中须要为每个任务单独演习模型的模式,可通过少量任务特定的数据进行预演习和微调,提高模型的通用性和迁移能力。这便是为何传统NLP范式在处理长文本或繁芜语境时常常力不从心,而天生式人工智能天生的文本在语法、语义以及连贯性方面均达到了前所未有的高度,超越了传统NLP技能的表现。
天生式人工智能以“鲁棒”的“算法”“算力”和“算据”,在措辞研究的各个分支都表示出了较强的运用性。从词汇学研究角度来看,天生式人工智能在自动化词汇天生与扩展、词汇语义剖析的风雅化、词汇关系与构造的建模、多措辞词汇比拟研究、词汇习得与措辞教诲、词汇语料库的构建与剖析,以及新词汇的识别与剖析等方面的浸染不容小觑。例如,天生式人工智能通过语境可以提升词汇语义剖析的精度和广度,并基于词汇的语义场剖析,区分多义词的不同含义,以及识别同义词、反义词和高下位词等语义关系,继而推动词义剖析的深入发展。传统研究词义的历时发展变革(如扩大、缩小、脱落、转移等)紧张通过对大量历史文献的阅读和剖析,从中提取足够的例证,以证明词义的发展演化。然而,要探索词义古今发展的历史轨迹及其规律,须要对海量历史文献进行细致的剖析,从中筛选出词义演化的语料,且不论须要花费大量的人力、物力以及时间,既有辞书(如《辞源》等)中收录的某些词条词义的可靠性在学术界仍存在争议。故此,传统词义研究每每会不断根据新材料、新例证、新结论对干系词条进行改动。相对而言,天生式人工智能通过对大措辞模型进行干系能力的演习,并将干系历史文献数据化,依托大规模语料库,让具备理解与学习能力的模型自主开展搜集、整理和剖析事情,对词义的发展演化进行全面、穷尽性的研究,从而得出比“作坊式”研究更可靠、更稳定、更科学的结论。
天生式人工智能宛如彷佛一柄“双刃剑”,其不断迭代发展对付措辞研究而言,既是机遇也是寻衅。尤其对付传统措辞理论而言,可谓是一种无形的冲击。措辞学家诺姆·乔姆斯基认为,诸如ChatGPT这样的模型缺少对措辞深层构造和天生机制的理解,忽略了措辞的认知根本和普遍性原则,且缺少对措辞含义的深层次理解;而所有自然措辞共享一套普遍的、内在的语法原则,这些原则是人类措辞能力的根本,是人类天生的认知构造的一部分。然而,乔姆斯基的这种不雅观点很快被加州大学伯克利分校的神经心理学家史蒂文·皮安塔多西回嘴。他认为,当本日然措辞处理的表现最为突出的是被称作“转换器”(transformer)的深度神经网络,该网络经由足够大的数据集演习,可灵巧处理非本地的依存关系,因而天生式人工智能的迭代发展在很大程度上削弱了转换天生语法关于措辞天性的论断,其对特定洞见、原则、构造和过程的核心主见已经颠覆并绕过了乔姆斯基关于天生措辞的全体理论框架,包括句法构造和语义构造,在拥有数以万亿计参数影象的根本上既强调了构式的主要性,又继续了显式句法和语义联结打算的传统。由此可见,天生式人工智能已经对措辞研究的理论体系和方法论体系产生了深远的影响。
天生式人工智能运用的对策建议
天生式人工智能在措辞研究中具有巨大潜力,但同时也面临诸多寻衅和问题,须要我们批驳地利用。一方面,天生式人工智能是人类文明发展到一定阶段的一定产物,其不断发展很可能将措辞研究推向一个全新的阶段,特殊是在数据处理及剖析能力方面,将为措辞研究带来革命性的变革。因此,未来大措辞模型的研制、构建、优化、演习等过程须要各个领域的研究职员协同参与。特殊是针对既有模型中中文数据占比较少(如ChatGPT中演习语料仅为0.16%),且质量不高的现状,可以通过多渠道扩展中文数据来源,包括公开数据集、文献资源等,进一步办理“数据孤岛”问题。
另一方面,天生式人工智能在措辞研究中的伦理问题也需重视。首先,从数据隐私与保护层面看,在网络和处理措辞数据时,只管即便采取数据匿名化和去标识化技能,对敏感数据进行加密处理,并采纳安全存储方法,防止数据透露和未经授权的访问,严格遵守干系隐私保护法律法规。其次,从模型的透明性与可阐明性层面看,公开模型的架构、演习方法和数据来源,向学术界和"大众年夜众阐明模型的事情事理和决策过程,采取可阐明性技能,会使模型的输出和决策过程更加透明,更易于理解。末了,是措辞学界最为关心的伦理审查问题。未来的措辞研究必将建立干系伦理审查机构及平台,其紧张职能是卖力评估和检测天生式人工智能的详细伦理问题,包括学术剽窃、数据造假等,并制订威信的天生式人工智能利用规范,来明确研究任务和责任,以确保在措辞研究中的科学性和伦理性。
一言以蔽之,未来天生式人工智能迭代及其颠覆性技能的打破,必将带给措辞研究领域全新的研究理念与方法。尤其在新文科背景下,措辞研究早已摆脱了所谓“非科学”的束缚,大量成果也早已超过学科“藩篱”,不再拘于狭义“措辞学”的“一隅之说”。可以说,只要合理利用,天生式人工智能将使措辞研究在学理思想、知识构建、方法创新等方面开释出无法计算的文化生产力。
(本文系国家社科基金项目“语料库驱动的英汉措辞学话语体系比拟研究”(21BYY046)阶段性成果)
(作者系大连海事大学中华精良海洋文化外译研究中央教授)
本文来自【中国社会科学网】,仅代表作者不雅观点。全国党媒信息公共平台供应信息发布传播做事。
ID:jrtt
本文系作者个人观点,不代表本站立场,转载请注明出处!