算法阐释:人工智能时期的文论问题

曾 军

算法阐释:人工智能时代的文论问题_算法_措辞 计算机

择要:以ChatGPT和“文心一言”为代表的大措辞模型展现了“AI天生”的巨大潜力。
通过算法进走运算是打算机编程措辞与人类自然措辞的根本差异,这也是理解人工智能的主要维度。
把算法引入文学研究,一方面须要理解算法背后的逻辑,另一方面还要理解文学研究自身不断“数”化的进程。
文学研究对与算法干系议题的关注由来已久。
20世纪80年代的“方法论热”不仅将与人工智能干系的掌握论、信息论等作为主要的科学根本和思想来源,而且开始尽可能调用已有的文学和艺术资源,试图实现对“三论”中的不雅观点和方法的文学化和美学化征用,这构成把算法引入文学研究的理论“先声”。
研究算法阐释有两种路径。
其一是将算法作为工具,通过辨析算法的运行逻辑及实行过程来与文学创作和文学研究的活动比较较,进而谈论以作为工具的算法阐释有何特点。
基于20 世纪以来西方文论干系理论思维,可以将算法作为工具的阐释命名为“人-机互动”的“可写阐释”。
其二是将算法作为方法,通过对算法的数据处理能力的运用及其任务实现效能的评估,为文学研究这一此前纯粹属于精神生产领域的活动赋能,进而提高文学研究的效能。
“数字人文”(“人文打算”)便是对这一赞助性方法的命名,且已经经历了近90年的发展。
进入人工智能时期之后,文学研究有可能实现对文学意义的“总体阐释”。

关键词:人工智能时期;AI天生;算法阐释;可写阐释;总体阐释

近年来,以ChatGPT和“文心一言”为代表的大措辞模型先后横空出世。
它们因具有了通用人工智能的某些潜能,而令险些所有人文社会科学及自然科学研究者感到前所未有的冲击。
实在ChatGPT和“文心一言”只是全天下数以百计的各种大模型中的一种。
根据《中国人工智能大模型舆图研究报告》显示,仅2021-2023年短短两年间,中国就自主研发了79个大模型,不仅有大措辞模型,还有视比年夜模型、多模态大模型等。
它们都聚焦“AI天生”领域,供应文本天生、图像天生、声音天生、代码天生,以及多模态之间的相互天生的办理方案。
措辞是人类思维的工具,经由“AI天生”的文本、图像、声音和程序直接“入侵”了人类精神活动最核心的领域,并开始表现出知识生产、艺术创新和思想重构的巨大潜能。

“AI天生”技能的涌现带给人类的震荡及对未来的恐怖令每个人文学者被迫思考一个主要的问题:我们是否会被替代?在科技与人文的交手中,人文学者一贯处于弱势的、被动的、防御的地位。
然而,作为正在进入人工智能时期的人文学者而言,大略的拒斥和回避是无济于事的。
我们只有理解“AI天生”的技能与人类此前从事精神活动和艺术创作的手段之间的异同,才有可能较为深入地谈论“AI天生”给人文研究带来的影响。
因此,将算法引入文学研究,本色上是对“AI寻衅”的一种回应:人工智能时期文学研究将呈现若何的新面貌?由此会发生若何的研究范式转换?

一、未来已来:算法逻辑及其被理论化的可能

将算法引入文学研究,一方面须要理解算法背后的逻辑,另一方面还要理解文学研究自身不断“数”化的进程。
只有这样,才能实现算法的理论化。

打算机编程措辞和人类自然措辞的差异,根本在于算法。
所谓“算法”,指的是一系列办理问题的步骤和指令集。
它是一种能够被打算机程序所实现的、有明确规定性的打算过程。
算法包含着一系列环环相扣的步骤,每个步骤又包含多少指令来规定着其任务的实行方向。
根据最新统计,全天下的自然措辞有7000多种,那么编程措辞有多少种?目前为止还没有标准答案,但根据估算可能存在几百种编程措辞。
将人所利用的自然措辞与在打算机中运行的编程措辞进行比拟,可以创造,编程措辞中没有语音学、措辞习得干系问题;与自然措辞中存在措辞的变异与蜕变类似,编程措辞也有措辞历史学、语义学、语法学、措辞类型学、措辞标准化干系的问题。
唯一一个在自然措辞中不存在,而在编程措辞中存在的,便是算法。
以是算法事实上是理解编程措辞的过程中最主要、最分外的内核。

从打算机到人工智能,算法经历了从“打算机赞助算法”到“AI赞助算法”的演化。
所谓“打算机赞助算法”是非人工智能的,这个中人是算法的设计主体、任务主体,打算机则是算法的实行主体,二者间界线分明。
“AI赞助算法”则与此不同,打算机不仅是实行主体,而且拥有了自我学习能力,进而拥有替代部分人的设计能力和任务能力,具有自主实行能力。
ChatGPT的利用证明,人工智能的算法能够处理不愿定性的信息,它具有数据驱动的模型,因而具有很强的适应性和自适应的能力。
这里还存在人工智能专家也无法完备理解的算法黑箱问题。
也便是说,人们并不太清楚算法到底是怎么实现既定的任务和目标的。
最新的研究显示,OpenAI的设计师正在用GPT4去理解GPT3.5的运行,希望通过高等人工智能去理解低级人工智能,以破解黑箱的奥秘。

要理解算法背后的逻辑须要从算法的技能事理和一样平常规律的角度出发。
首先,算法种类多样,所有的算法都是为了实现特定目的而被制造的。
如为理解决排序问题而设计的快速排序算法,为理解决最短路径的问题而设计的Dijkstra最短路径算法,为了挖掘关联规则而设计的Apriori算法等。
其次,每一个有特定目的的算法都有特定的数据构造。
如快速排序算法的数据构造是数组,Dijkstra最短路径算法的数据构造是加权有向图,Apriori算法的数据构造是事务数据凑集等。
末了,每个算法的实行过程也不一样。
比如快速排序算法的实行过程便是先选取一个基准元素,进而将序列中小于基准元素的放左边、大于即是的放右边,末了再用递归处理两边的序列。
Dijkstra最短路径算法的实行过程是首先将所有节点之间的间隔初始化为无穷大,将出发点的间隔设为0并加入访问凑集,进而更新出发点与不同节点之间的间隔并将其加入访问凑集,末了通过不断重复上述过程,直到所有的目标节点加入访问凑集或者待访问凑集为空。
因此,根据任务的不同,便会设计出不同的算法,如排序算法、搜索算法、图形算法、打算几何算法、加密算法、优化算法、机器学习算法、深度学习模型、神经网络、梯度低落算法等。
简言之,算法首先要去理解其目的是什么,即要办理什么问题;然后理解数据构造、运行规则、实行过程分别是什么;末了还要问的是,这一算法是否有效。

若何把算法引入文学研究?这须要实现自然措辞的文学和编程措辞的算法的“双向奔赴”。
事实上,文学研究也经历了不断地被“数”化的进程。

第一阶段是指“数学化”,即用数学中的打算办法来理解文学。
在《中国叙事学》一书中,浦安迪创造中国古代的四大奇书里有一个非常有趣的奇书文体的构造征象。
他概括为“十回”的主构造,即百回的小说都因此每十回为一个单元,从而构成了十乘以十的阐述节奏。
“十回”的主构造里又存在“三、四回”的次构造,也便是说“三三四”“三四三”或“四三三”的构造模式。
这便是浦安迪从数学角度对四大名著早期版本所做的研究。
从这里可以看出,数学化过程有助于以一种抽象化的办法来理解文学文本的特有规律。

第二阶段是“量化-统计化”,即不仅将各种文学征象量化,而且还用统计的办法实现对被量化的文学征象的规律性剖析。
中国古代文学研究学者陈大康是数学专业出身,他即是以数学的数理思维研究包括红楼梦在内的中国古代文学。
他的博士论文《普通小说的历史轨迹》便是用统计学的方法,对明清普通小说的内容进行剖析,辨析小说所反响的思想内容和形式风格。
陈大康统计创造,明清普通文学创作中,演述宋代的作品最多,达到了93篇,演述元代的作品为19篇,演述嘉靖朝以来的作品则相称少。
这便是通过详细的量化剖析,以统计学的方法所实现的文学征象剖析案例。
又如,美国学者丹尼·辛尼金(Daniel Sinykin)在其《经济学、种族和美国战后小说:一部计量文学史》一文中绘制了两幅图。
图中,横轴为出版期间,纵轴为均匀的经济程度,左幅为黑人作家,右幅为白人作家,实线圆点为黑人女性,虚线三角为男性作家。
从大数据的角度去比较这两幅图中1950年到2000年间黑人作家和白人作家、女作家和男作家受关注度的差异。
图表显示,白人女作家的受关注度基本保持不变,黑人女作家则在不同的期间受关注度不一样,呈明显的波浪性分布。
这解释,大数据可以赞助特定的经济学、种族问题与文学的关系研究。

第三阶段,也便是现在所进行到的“数字化-数据化-向量化”阶段。
所谓“数字化”实在便是将纸质的文本变成了数字形态所能够识别的文本,使其得以在互联网上传播。
“数据化”则是进一步授予被数字化的文本元素以特定的权重,形成可以进行检索与剖析的数据库。
到了人工智能的“向量化”阶段,文本所负载的位置标签、被授予权重的各种数值越来越多,影响大模型运行的参数也越来越多。
这一阶段文学“数”化的范例代表便是“AI天生艺术”的出身。
无论是“AI写作”还是“AI绘画”“AI音乐”以及“AI影视”,越来越多的人工完成的创造性活动被人工智能所替代。
从前几年人工智能诗歌写尴尬刁难象微软小冰和“九歌”的涌现到现在以ChatGPT、“文心一言”为代表的“AI天生”技能的兴起,预示着人工智能开始从“专家人工智能”向“通用人工智能”的过渡。

通过对算法背后的逻辑以及文学“数”化进程的理解,可以实现打算机与文学剖析之间的某种结合,从而为建构一种“算法阐释学”供应某种思路。
在《真理与方法》中,伽达默尔提倡从游戏的角度去理解艺术作品,认为只有遵守游戏特定的规则,主体才能成为游戏中的人。
因此,阐释也是要在这种特定的规则范围里展开谈论。
美学和阐释学也有这么一个过程,以是伽达默尔提出“美学必须被并入到诠释学中”,即要纳入到相应的规则系统之中。
套用伽达默尔的表述,以ChatGPT和“文心一言”为代表的人工智能技能正在创造一个全新的精神天下。
它以“游戏”的办法,以“自由创造”的理念,以“与现时生命的思维性沟通”为特色,提出了重新展开对审美意识与历史意识批驳的艺术真理的问题。
换言之,人工智能技能提出了一个新的诠释学的义务。
这一新的诠释学义务可以被命名为走向文论的“算法阐释”。

二、往事回顾:“前”人工智能时期的“方法论热”

文学研究对与算法干系议题的关注由来已久。
因此,在正式进入人工智能时期的文学阐释问题之前,还有必要对人工智能对人文领域的影响做一个历史化的梳理。
这里最值得关注的便是20世纪80年代中国文论中的“方法论热”征象。

“方法论热”紧张是指20世纪80年代发起于哲学领域尔后迅速向其他人文、社科领域滋长蔓延的研究方法谈论热潮。
1985到1986年是方法论研究的爆发之年,因而1985年被称为“方法年”,1986年被称为“不雅观念年”。
个中最核心的便是“新”“老”三论的兴起,即以“老三论”为代表的系统科学理论引入人文研究尤其是文学研究。
所谓“老三论”,即系统论、掌握论和信息论;所谓“新三论”,即耗散构造论、协同论和突变论。
“老三论”和“新三论”对文学研究的影响并不一样,前者的影响大于后者。
就“老三论”内部而言,系统论、掌握论和信息论也是从不同层面影响文学研究的。
系统论从原则上为文学研究供应整体性、系统化的框架。
因而,系统论每每是在文学的基本事理、文学研究的体系框架上产生影响。
童庆炳的《文学概论》从文学活动开始,并将艾布拉姆斯的“文学四要素”作为提要挈领的框架,这在一定程度上是受到了系统论思想的影响。
掌握论与信息论对文学研究的影响则带有碎片化的特点。
换言之,某些学者只接管了某些基本观点,继而将之横移到文学研究中来。
整体而言,“新三论”并非“老三论”的替代,而是对后者的补充和延展,“老”“新”三论均非一样平常意义上的自然科学学科,而是个中的“横向科学”,在科技哲学或者科技不雅观念的层面对人文社科研究产生影响和启迪。
因此,与其说是“方法论热”不如说是“科学不雅观念热”。

“方法论热”在文论和美学领域产生影响。
1986年,黄海澄所著的《美学事理》的副标题即是“系统论、掌握论和信息论”,在书中黄海澄明确提出“老三论”是本书主要理论参考。
黄海澄本人曾言:“本书主体部分的初稿写于1980年秋冬”,这意味着“三论”早在改革开放之初就产生影响,并且不是文学大略地受到哲学影响,而是文学与哲学险些同步受到“三论”的影响。
那么,为什么1985年到1986年是方法论研究的爆发之年?对此,黄海澄在书中直言:“现在学术气氛变了”。
以是,“方法论热”实在不仅是指发生在某个特定年份的事宜,它的影响贯穿了全体1980年代这一时段。
黄海澄的《美学事理》共十五章,与掌握论直接干系的就有八章;其他章节偶有涉及系统论,而信息论则被放在附录中。
因而,此书与其命名为“三论美学”,不如命名为“掌握论美学”。
这一征象也证明“老三论”对文论和美学的影响并不是等价的。
个中,系统论具有研究的辅导性意义,即它更多表示在“原则”“思维”“出发点”等宏不雅观方面;掌握论具有研究的实践性意义,即能够详细落实到美学和文论的中不雅观层面,与详细问题结合起来;信息论具有研究的认识论意义,即能够将文学文本转化为信息,引入编码/解码、输入/输出、处理、反馈等认识的微不雅观过程并描述出来。
黄海澄的美学研究侧重的则是中不雅观层面的“掌握论”。
因此,“三论”对美学和文论的影响是繁芜且多样的,不同学者各取所需,其利用侧重于思想启迪、观点平移、征象类比和不雅观点印证等。

“三论”同样影响了文学批评。
在《新方法论与文学探索》(下文简称为《新方法论》)一书的媒介中,徐中玉提出了几个主要不雅观点:一是实现文学研究方法多样化的一个路子是通过“移植”“交融”和边缘科学的研究,打破既有学科的边界和思想束缚。
这是1980年代思想解放的主要表示,且与当下对将其他学科的观点平移到文学研究中基本上持反思性态度不同。
第二是徐中玉认为,文艺理论不仅该当与社会学、生理学、美学、哲学等学科领悟,不仅该当从“三论”中汲取营养,而且还该当在弄懂原形的根本上,大胆接管改造外国统统文艺理论研究的新方法、新不雅观点。
可以说,徐中玉所著的媒介包含了极大的解放思想、冲破统统思想束缚的激情亲切。
从内容上而言,《新方法论》不仅关注了“新”“老”三论,同时还包括其他科学理论和西方文论思潮,如“测不准事理”“形式美与形式主义”“怪诞艺术”等。
因而,从中不雅观层面来看,文学研究中的“方法论热”不限于“老三论”“新三论”,还涉及对社会科学诸理论、西方文论诸思潮、当代主义诸流派的广泛借鉴。
所谓的“方法论热”,实在便是“西学新潮”在文学研究方法上的反响。
而“移植”“交融”“跨学科”“学科交叉”具有研究方法的思想解放意义。
因此,“三论”对文论和美学的影响须要将之放在80年代学术思想潮流的“整体”中进行系统稽核。

如今,人工智能时期终于来临。
近几年来,险些每年都有新的技能创新被授予革命性意义,并随即引起广泛社会关注。
例如2016年被称为AR、VR元年,2021年被称为“元宇宙”元年等。
麦克卢汉早就预言:“在电力时期,我们的中枢神经系统靠技能得到了延伸。
它既使我们和全人类密切干系,又使全人类原谅于我们身上。
”在电力时期之前,虽然有车轮替代脚、筷子替代手指,但这些媒介的“身体延伸”并没有产生革命性的影响。
但由于数字技能、数字新媒体实现的是对人的中枢神经系统的延伸,它所带来的影响无疑是巨大的。
对此,凯瑟琳·海勒(Katherine Hayles)也提出“为什么打算媒介不仅仅是另一种技能”的问题。
在打算机背后,更主要的是它所包含的逻辑,这在人的思维、人与机器以及“它者”的关系的研究领域产生了全新的理论以及全新的问题。
因而,掌握论最核心的内容实在是对人与物之间的信息反馈系统的界定。
掌握论所强调的,是依赖信息的反馈和实行来完成任务,而这也是人工智能的核心内涵所在——机器自动化。
根据凯瑟琳·海勒的描述,目前掌握论技能已经进入第三阶段,它已超越自然科学内部,被广泛引入到社会文化研究中。
正是在此根本上,掌握论与人工智能时期给当代文论和美学研究带来了一系列新的议题,如“后人类”思潮(如主体、身体以及人机关系)、“技能主义”思潮(如对技能、韶光与未来图景的关注)、“神经美学”(如审美认知、认知诗学等)等。

回顾“方法论热”这段历史演化不难创造,当前“AI天生”问题实在早就受到了文论学者的关注。
与人工智能干系的掌握论、信息论等不仅成为“方法论热”中的科学哲学的理论根本和思想来源,而且已经开始尽可能调用已有的文学和艺术资源来实现将掌握论、信息论之中的诸多主要不雅观点、方法的文学化和美学化。
因此,“方法论热”成为当前“AI天生”问题文学研究化的理论“先声”。
而只有当打算机技能遍及化,人工智能技能向“通用人工智能”阶段发展,“AI天生”真正成为一个现实问题时,“算法阐释”才可能真正成为文论须要关注而且是可能关注的问题。

将算法引入文学研究,进而展开算法阐释的研究有两种路径:其一是将算法作为工具,通过辨析算法的运行逻辑及实行过程来与文学研究的活动比较较,进而谈论以算法作为工具的阐释有何特点;其二是将算法作为方法,通过对算法的数据处理能力的运用及其任务实现效能的评估,来为文学研究这一此前纯粹属于精神生产领域的活动赋能,进而提高文学研究的效率。

三、可写阐释:算法作为工具的算法阐释问题

“可写阐释”,便是将算法作为工具,对算法参与下的文学阐释活动的一种命名。
这种阐释何以可能?回答此问题前,须要对“AI天生”算法做一个背景性的解释。

(一)首先,我们须要理解以ChatGPT为代表的算法“天生”与“转换”问题

“GPT”的全称是“天生式预演习转换模型”(Generative Pre-trained Transformer Model)。
这里的“G”(天生)、“P”(预演习)和“T”(转换)成为理解基于大措辞模型的“AI天生”特点的关键词。
详细来说,ChatGPT的天生过程分为无监督学习、监督学习和强化学习三个阶段。
在无监督学习阶段,程序员利用转换器(transformer)建立大措辞模型。
这个模型最初只是一个未经演习的数据构造模型。
之后,程序员将网络到的所有干系文本信息全部“投喂”给此模型,同时只输入一些最基本的规则,让该模型自己对信息进行处理和学习。
继而再由人来对数据模型中所包含的词进行向量分布,确定词与词之间的关系,形成“词向量空间”。
这一词向量空间所形成的构造性关系,可以被理解为是宇宙中的繁星所构成的天蝎座、仙女座等星丛与星丛之间的关系。
其次,是监督学习阶段。
在这一阶段,事情职员给模型供应任务并判断模型的任务完成度。
根据评估结果,人工对干系参数进行改动,从而调度词向量空间的关系。
末了是强化学习阶段。
在这一阶段,模型会被供应更多新的任务,并通过人工办法对其完成度进行评分。
接着,ChatGPT会根据分数高低自动调度其人工标注。
经由以上三个阶段的演习后,对ChatGPT的演习即基本完成。
此后,ChatGPT采取一套被称为“基于自把稳力机制的神经网络架构”加以运行。
普通来讲,这一运行过程可以被视为用词语接龙的办法完成对付下一个词语的预测。

不难创造,ChatGPT并没有所谓的“文本数据库”或“知识库”。
它仅包含一个数据模型,个中又包含着已经被演习完成的词向量空间。
这个数据模型的天生终止于其结束演习的时候,如GPT-3.5的所有数据仅限于2021年。
不过,到了GPT-4,该模型已具备联网能力,能够实现实时的数据库挖掘和反馈,其蜕变速率也会飞速增加,不愿定性也将更大。
这也是为什么马斯克等人对未来的GPT-5持担忧态度的缘故原由。
由于在人类还没有打开算法黑箱的情形下就贸然让它快速发展,将面临人类无法驾驭人工智能的危险。

Transformer大措辞模型是一种经典的天生构造,已被广泛地用于大措辞模型的实行过程。
这一实行过程可被大略地视为包含一个编码输入和解码输出的过程。
在此过程中,ChatGPT通过算法实现了对指令的有效回答。
该模型通过输入嵌入层对输入信息进行编码,并将其嵌入位置信息。
进而,模型通过多头把稳机制和前馈,也即预演习系统所积累的“履历”,利用一套基于自把稳机制的算法来反馈并确定其有效性,并根据反馈授予其不同的权重。
在对所有信息反馈进行加权求和后,终极导出的标准性结果即为所输出的内容。
举例来说,假设在模型中输入“你吃”两个词,系统会调用现有的文本数据集,提取可能的后续词汇,如“饭”“菜”等。
接着,模型通过编码的位置信息,即高下文语境,打算出每个词涌现的概率,从而选择概率最大的词作为输出工具。

(二)将算法引入文论,须要有一个从理论想象到理论实现的过程

事实上,在20 世纪西方文论中,已有大量理解与人工智能算法相似或干系的某些理论思维。
罗兰·巴特在《S/Z》中提出“可写性文本”这一观点,意为 “无小说的故事性,无诗歌的诗意,无论述的随笔,无风格的写作,无产品的生产,无构造的构造化”。
它指的是一种被打散的构造,一种能以任何办法被重新解构的、具有可天生性潜质的文本。
在传统的纸质书本中,文本在被印刷出来时就已经被确定了。
而罗兰·巴特考试测验将文本从作品中解放出来——只有解放文本,它才能够被拆散和重组。
在纸质的书写文学的时期,“可写性文本”可能难以理解,但在本日的数字时期,它便是现实。
在罗兰·巴特揭橥了《S/Z》的前3年,卡尔维诺(Italo Calvino)揭橥了《掌握论与幽灵(关于作为组合式过程的叙事文学的条记)》,开始思考未来的以电脑作为工具的文学创作。
他构想了一种新的文本,也即由喷鼻香农、维纳的信息论、掌握论所创造出的“文学机器”:“本日,我们方向于将它视为一系列断续的状态,或者数量有限(一套巨大但有限的数字)的传感器和掌握机构上面的脉冲的组合。
电脑还远远不能行使人脑的所有功能,却已经能够为我们的影象、思想上的关联、我们的想象,还有我们意识中最繁芜的过程,供应一个令人信服的理论模式。
……没有任何东西禁止我们想象出这样的一台文学机器:从某个时候开始,它不再知足于自身的传统主义,于是提出对付写作的一些新的理解,并且彻底打乱自身的所有规则”。
卡尔维诺认为,“那才是能够与假设的理论完备符合的文学,也便是终于成为文学。
”值得把稳的是,卡尔维诺写出这篇文章前后,法国的构造主义正达到顶峰,后构造主义正在兴起。
在法国的文化理论从构造主义向后构造主义的转向过程中,克里斯蒂娃也提出了著名的互文性理论。
卡尔维诺所磋商的“文学机器”不雅观念与它们构成了共鸣、呼应与同构的关系。

构造主义与信息论、掌握论的某些思想所具有的这种同构性并非只是个案。
早在法国构造主义运动之前,普罗普的故事形态学研究已涌现了类似的理论思维。
除了耳熟能详的对“功能”和“角色”的区分外,普罗普对民间故事中“功能”与“功能”的衔接、“角色”与“角色”之间的转换以及“主题”及其意义在海量“功能”与“角色”中的不断天生和发展的描述,极其类似人工智能算法的“映射”和“迭代”。
《故事形态学》的剖析模式也与现在人工智能信息迭代的模式相似:所有的信息在不断迭代的过程中确定下一个向量的特色,然后实现意义的天生输出。
构造主义的剖析方法也为我们将措辞理解为一种不断天生的过程供应了想象空间。
在索绪尔构造措辞学供应的能指和所指的构造根本上,罗兰·巴特增加了二级符号系统——“神话”。
按照罗兰·巴特的理解,这种“神话”不是一次性完成的,不仅仅有二级符号系统,还可以有三级、四级以至于无穷的符号系统。
这正是对符号及其意指实践的“天生性”的完美诠释。
类似的理论在受构造主义影响下的经典叙事学研究中也能找到范例案例。
当我们论及叙事学,常日会提及热奈特、托多罗夫,或者格雷马斯,但很少关注布雷蒙。
在布雷蒙设计的“大略序列”模型中,所有的叙事都从基本的动力“可能性”开始。
接着可分出可能性“变为现实/没有变成现实”,“目的达到/目的没有达到”的路径。
值得把稳的是,布雷蒙叙道理论中的“可能性”也与信息论中对未来的“预期”存在相同之处。
所谓信息论中的不愿定性,也即可能性的问题——当可能性大时,确定性也就越高;当可能性小时,不愿定性也就越高。
因此,将布雷蒙的可能性叙事构造理论转化为信息学或许是一个最为大略的路子。
基于“大略序列”,布雷蒙进一步总结出了各种“复合序列”及其更为繁芜的组合模式;他还为叙事循环设置了改进和恶化两个路径,等等。
所有这些对叙事序列的描述都具有被置换为0和1的编程措辞的可能。

进入20世纪70年代,随着大规模和超大规模集成电路被运用于打算机的制造,人类进入微型打算机的新时期。
打算机的运用处景也从科学打算、事务管理和过程掌握逐步进入人们的日常生活,乃至走进家庭,人们也开始考试测验用打算机来从事文学艺术的创作。
由此涌现的新媒体艺术便具有了真正的“以算法为工具”的艺术活动的特色。
在这一期间,斯图尔特·霍尔的“编码/解码”理论也成为理解文学意义天生过程的非常有效的理论模型。
德勒兹的“块茎”思想如果仅仅被用于理解文学自身时会显得有些迂回,但若将其利用于理解新媒体艺术、数字艺术以及这个时期的发展,则显现出高度的契合性。
环绕新媒体时期艺术的发展,也开始涌现直接以算法为工具的文学研究,例如阿尔瑟斯(Espen Aarseth)的遍历文学研究和玛丽-劳尔·瑞安(Marie-Laure Ryan)的数字叙事研究。
阿尔瑟斯用“ergodic”(遍历)来描述一种随机、自动、非大略重复的天生性文学特色。
它不仅包括“基于文本的冒险游戏和自动天生故事和诗歌的程序”,而且还可能包含“其自己的机器来操纵它自己(例如打算机程序)”的情形。
不同于阿尔瑟斯对遍历文学文本的完成性和封闭性的剖析,玛丽-劳尔·瑞安认为该当“把叙事学看作一项未完成的项目。
倘若说经典叙事学未能通过互动文本性的考验,那也并非意味着互动文本性也未能通过叙事性的考验”,因此,她主见拓展叙事研究的领域,将“数字叙事”“打算机叙事”纳入研究范围。
为此,玛丽-劳尔·瑞安列举了涌如今新媒体艺术中的各种模式组合的文本——讲述式、表征式、回顾式、脚本式、接管式、自主式、确定式、字面式等。
她虽然描写并命名了不同的类型,但实在并没有供应一个统一的分类标准,有的只是根据不同的文本形态进行的命名。
因此,玛丽-劳尔·瑞安的新媒体艺术的叙事剖析虽然很专业,但并不很深刻。
不过,瑞安确实已经将数字时期的叙事学理论往前推进了一大步,尤其是她在《故事的变身》中提出的互动性类型剖析框架,将用户的参与纳入到叙事剖析中,为互动叙事这一主要问题供应了根本。
除此之外,列夫·马诺维奇的新媒体艺术研究也值得特殊关注。
在《新媒体的措辞》中,马诺维奇提出了一个有趣的不雅观点:数据库与阐述是相互对立的,但二者开启了交互性阐述的可能性。
无论是玛丽-劳尔·瑞安还是列夫·马诺维奇,都向我们指出了从交互性理解人工智能艺术及数字叙事(更准确的说是“赛博叙事”)的主要性。

(三)在上述根本上,人工智能时期涌现基于算法的“人-机互动”“可写阐释”征象

在人工智能时期的文学阐释中,人-机互动是最为核心的问题。
我们不应将文学阐释大略地理解为文本性阐释,即从作家创作、作品完成,再到读者解读的过程。
人工智能对文学的影响包括文学活动的作者、读者、文本、天下四个方面,同时也涉及文学创作和文学批评这两个层面。
而人-机互动是最有助于我们理解AI 时期的文学阐释、文学算法问题的构造化成分。
我们可以区分出四种人-机互动关系。
第一,“人\[生\]-机\[用\]”,即人类创作,AI 评论。
第二,“人-机\[互生互用\]”,即人提出指令,AI 实行。
简言之,即是将人工智能理解为人类的一个智能助理。
第三,“机-人\[互生互用\]”,即AI 自主天生,人成为被动参与。
第四,“机\[生\]-人\[用\]”,即AI 写作,人类阅读、评论。
到了这个阶段,就形成了无须指令的AI自主写作。
我们尚不能确定末了两种关系是否在未来会真的实现,但至少从理论模型上可以推导出这两种可能性。

依托这个剖析框架可以进一步磋商ChatGPT的文本天生属于何种人-机互动模式。
在这个问题上,玛丽-劳尔·瑞安的《故事的变身》供应了一个新的阐明方案,她将人-机互动的关系从两个维度分成了四种类型。
一方面,瑞安区分了“外在视角”和“内在视角”。
“外在视角”可以被视为“上帝视角”,即处于虚拟天下外部,而“内在视角”指的因此化身的视角处于虚拟天下内部。
例如,在我们利用电脑时,我们外在地操作电脑系统,从而是一种外在视角。
而当我们玩一个电脑游戏时,我们通过选择扮演某一游戏角色,以化身身份进入游戏的虚拟天下,从而处在内在视角。
不过,目前的化身形式仅限于角色扮演的低级阶段。
在新的阶段,如《头号玩家》、“元宇宙”的化身阶段,我们才能够真正实现内在视角,不过现在尚未实现。
另一方面,瑞安又区分了“探索互动性”和“本体互动性”。
“探索互动性”指的是用户只利用虚拟天下的视角,而不改变虚拟天下本身。
“本体互动性”指的则是用户不仅利用,而且改变了虚拟天下的历史分岔。
瑞安这一剖析框架最大的贡献是将用户的参与纳入叙事剖析。
用户不再是一个被动的接管者(读者),而是能够去参与、改变、创造新的叙事的可能性的主体。
但用户也并非凭空创造,而只能改变既有的文本,为其供应呈现的可能性。
这便是一种互动的过程——这是此前所有的叙事文本理论都没有触及的新问题。

在这一“内生/外生”、“探索/互动”的剖析框架下,我们可以初步做出以下判断:当前的人机对话是人类作为用户,以外在的办法探索ChatGPT,且由于人类并不改变ChatGPT,其天生的内容也不会进行自我保存,因而目前的人-机互动模式可能基本还处于外在-探索互动型阶段。
不过,当GPT-4可以联网,可以自我更新迭代之后,用瑞安的理论,它就可能由外在-探索互动型演化为外在-本体互动型。
当然,在 ChatGPT自身内部存在一个天生性的过程,我们可以称之为内生性过程。
这一过程也包含探索性、本体性、外在性等方面。
那么,我们可以进一步提问:未来的ChatGPT是否能够被塑形?也便是说,未来我们是否能够将ChatGPT装在一个机器人脑中,授予它某种自主意识,让它能够自主掌握机器身体,使其成为一个具有自主行动能力的主体?当下,这个问题尚待验证,目前人们只能考试测验去推演它的存在过程。
在这一推演过程中,玛丽-劳尔·瑞安探索新媒体叙事学的理论框架可能对理解人工智能人机互动的关系供应启迪。

综合以上对ChatGPT算法的理解以及西方文论所供应的各种理论资源的调用,我们可以试图对ChatGPT算法的进行一种理论性的描述了。
这一描述可以环绕三个关键词展开:转换器(transformer)、预演习(pre-trained)、天生的/有生产力的(generative)。

A. 转换器(transformer)。
Transformer是一种大型措辞模型,这与索绪尔所描述的基于规则的语法构造具有一定的对应性。
Transformer模型通过词向量空间实现人机之间的互动过程,实际上就类似于通过问答实现言语交谈,而这两种措辞天生过程都在一定的规则体系下实现。
ChatGPT-3.5及之前的机器算法和编程措辞是模式化、构造化的,这意味着这些机器措辞的规则无法实时改变。
但是到了GPT-4之后,这一语法构造具有了改变的可能性,具有更强的不稳定性,也就越来越像人类不断自我更新创造的自然措辞。

B. 预演习(pre-trained)。
预演习可被视为一种措辞习得的过程。
无论是监督还是无监督的预演习,实际上都参照了人类的措辞习得过程。
在这一过程中,我们将人类的各种日常措辞、履历、先验知识、知识、前见、成规,以及措辞利用和意义识别办法都贯注给了这个大措辞模型。
因此,大措辞模型所有词向量中的标记实在都包含了人类的履历。
因此,ChatGPT的预演习本色上是一个优化过程。
正如艺术的熏陶是一种学习和发展过程,ChatGPT的预演习也是如此。
一个可能性的结果是,ChatGPT在经由预演习之后能够完成对艺术、措辞、审美、代价、意义、情绪等成分的表达。
但是颇为吊诡的是,ChatGPT没有情绪、影象和对自我行为的理解,那么,我们该如何认识ChatGPT的这种文学性表达?

C. 天生的/有生产力的(generative)。
当我们持续输入和输出,ChatGPT会不断天生新的内容。
这些内容是ChatGPT所征引的人类已有的知识,还是它创造的全新的知识?在此,我们可以暂时不去考虑基于传统的书面印刷笔墨而形成的属于知识产权范围的著作权观点。
由于这一观点本身已受到了严重的寻衅。
我们仅仅从“创造”“创新”“创意”的可能性角度来思考:基于GPT所创造出来的文本、图像、音频、***是否不仅仅是“前未有过”的,而且还是“颇有新意”的?

综合以上不雅观点,一个可能的结论是:以算法为工具的文学阐释,因此经由优化的完成预演习的大型措辞模型为语法,以“输入-编码”和“输出-解码”的问答式交互所天生的表示意图、创意和差异化的具有构造性和可写阐释性的文本为言语的文学阐释。
借用罗兰·巴特“可写性文本”的观点,以算法为工具的文学阐释可以被命名为“可写阐释”。

四、总体阐释:算法作为方法的算法阐释问题

以算法作为方法的阐释即是将算法作为文学研究的赞助工具,以实现对一些大略、机器、重复、非创造性劳动的替代。
如要统计一篇短篇小说中的某个虚词数量,仅靠人工数数就可以了;但是如果要统计一部长篇小说、乃至数以千计的伟大数据库中的虚词的数量,纯粹的人工数数就远远不足了。
基于算法的词频统计软件的发明正是为理解决这个难题。
因此,以算法作为方法的阐释正是文学创作和文学研究发展到一定阶段,为办理海量的信息处理难题而发明的赞助性方法。

“数字人文”(也称“人文打算”)便是对这一赞助性方法的命名,且已有了相称长的一段发展历史。
早在20世纪40年代,人们已经开始考试测验运用打算机来做文献的整理和剖析了。
1949年,意大利神父罗伯特·布萨(Roberto Busa)开始利用老式打算机制作出弘大的《托马斯著作索引》(该巨著直到1980年才编撰完成)。
60年代,约瑟芬·迈尔斯(Josephine Miles)在《文艺复兴、十八世纪和英语诗歌的当代措辞:列表视图》一书中提出了“中等间隔”(middle distance)观点。
2000年,弗兰克·莫莱蒂(Franco Moretti)揭橥了《关于天下文学的猜想》,并于2013年出版《远读》,提出了著名的“远读”(distant reading)理论。
中国学者开始以算法为方法的研究可以从20世纪80年代开始算起。
陈大康受美国威斯康星华裔学者陈炳藻的影响,用数学方法研究中国古代小说,在文学研究中融入了数学思想方法论。
1990年代末,赵宪章也开始用文本调查的办法,体例了一个词频软件,运用语料库对高行健的《灵山》进行文本分析。
他还对《美食家》小说中涌现的由“食”组合而成的衍生词进行统计并得出剖析。
与当今正在风起云涌展开的“数字人文”研究比较,这种研究方法显然十分朴素,但它基于数学和打算思维,正是以算法作为方法的文论研究的出发点。

以算法为方法赞助人类进行文本阐释是数字人文领域已经和正在实现的一种运用。
不过,由于文学领域学者的研究还不足深入,而绝大多数开拓这一技能的每每是理工科背景的学者,他们对文学的理解还仅限于比较基本的水平,因此目前这些阐释相对还比较低级。
例如,较为简短且最具形式感的诗歌成为现在数字人文研究的热点问题之一,由此衍生出对节奏、韵律、对偶、意象、主题、情绪等根本观点的稽核。
总的来说,目前数字人文的研究采纳的处理方法还没有达到“高智能”阶段。
它们大致可以概括为三类。
其一,大规模的、可持续的语义剖析。
如傅君励在《中国历代人物传记资料库(CBDB)对历史网络的构造化处理、记录与剖析》一文中,根据人物及其社会关系、社会身份、支属关系平分歧的维度,为他们打上不同的标签,从而建立一个完全的数据库。
借助该数据库,我们能够进行人物与人物之间的关系匹配,从而挖掘故意义的问题。
其二,自动化的文本分类和归档。
该方法目前已在网络文学中被广泛采取,例如利用机器识别对网络文学进行类型化区分。
其余,我们也可以根据文本中的关键词、特色、谓词等措辞特色对文本进行情绪剖析。
不过这在当前的文学剖析中用得还不多,紧张缘故原由是文学在情绪层面的循环剖析过于繁芜,而机器目前只能进行大略的正向和负向分类,并根据正向或负向授予不同的权重,进而做出各种剖析。
目前来看,这方面运用比较成熟的是商业性的顾客生理的情绪评价剖析。
其三,学习并自我完善的系统。
虽然目前网络文学中已存在大量的人工智能写作,在***领域人工智能写作也已成为常态,但实现学习和自我完善的系统目前在文学阐释领域尚未涌现成熟的运用。
这方面较为成熟的技能包括语音识别技能(讯飞)、图像识别技能、翻译(谷歌)、推举算法(TikTok)等。

传统的数字人文剖析方法须要大量的人工操作。
例如研究者网络大量文本数据后要对其进行人工的预处理,即为不同信息打上标签,末了对其进行意义剖析。
有了人工智能技能往后,大措辞模型的预演习过程实现了对人工预处理的替代。
当前以ChatGPT和“文心一言”为代表的大措辞模型都是利用人类已有知识数据进行预演习的结果。
因此,其“AI天生”的能力与预演习的数据性子、数据量有密切关系。
如果我们可以将大措辞模型通过预演习而得到的“词向量”视为索绪尔意义上的“措辞”的话,那么,每次ChatGPT和“文心一言”通过人机交互的办法实现的对话输出则可视为“言语”。
“词向量”是预演习数据中所包含人类知识、情绪、代价、意义的集成;而“人机对话”则是依据特定的“提示”(prompt)而实现的概率化输出。
这便是ChatGPT和“文心一言”的“AI天生”符合人类基本认知的“正态分布”,表示出人类“均值”特点的主要缘故原由。
这一“正态分布”或“均值”是否具有创造性并不主要。
由于对这个问题的判断紧张取决于人们对“创造性”的定义及其标准。
更为主要的是,如果文学意义阐释的“正态分布”和“均值”的判断能够成立,那么,我们就有可能实现对文学意义的“总体阐释”。

“总体阐释”是由笔者在回应与张江《论阐释的有限与无限——从π到正态分布》引发的谈论中提出来的。
在笔者看来,“‘总体阐释’并不想回到哲学阐释学,磋商阐释的‘放之四海而皆准’的一样平常的、普遍的通用的规律上去,而是想建立一种针对详细的现实的文学阐释实践的整体性的体系性的认识框架。
这不是一种抽象的整体性,而是详细的整体性;这一‘总体阐释’也非‘部分阐释’‘个别阐释’的叠加和拼凑,所谓‘整体大于部分之和’便是这个意思。
”为此,“我们须要建立起一种有关文学阐释意义的总体性不雅观念”。
这种不雅观念同时将“作者意图”“读者阐释”“意思”“意念”乃至“道听途说”等各种成分包括个中。
进而,我们就有可能实现对一个期间(时期)某个作家、作品或文学征象的总体认知。
基于这一总体认知,我们便能判断个中存在哪些“共识”,包含哪些“歧见”?“共识”与“歧见”之间是否具有可通约、可转换的可能?等等。
“总体阐释”的根本特点便是以“数字人文”(“人文打算”)这些以算法作为方法的赞助性工具打破个人的大脑对信息的处理能力,帮助人们在更大的数据量(海量数据)、更大的时空尺度(永劫段、环球或天下)中展开文学研究。
在研究工具上,“总体阐释”可以包括接管史、鉴赏史、批评史、研究史等在内的文学的阐释史;在研究方法上,则是基于数字人文方法的对文学阐释的情绪、叙事、形式及其意义的均值、方差、分布、偏态的大数据剖析。
根据“总体阐释”的意义分布,进而能够测绘出不同的历史维度,从而去办理文学史、文学意义的阐释过程,剖析不同期间文学阐释的共识和意义,把握它的主导方向和影响成分,从而为总体文学的研究供应某种可能。
这也便是莫莱蒂在试图重新理解和建构关于“天下文学”的想象时,倡导以“远读”作为方法的主要缘故原由。

综上所述,人工智能时期对文学研究带来了冲击与寻衅。
这既包括对传统文学研究方法中的“非创造性活动”(如检索、校正、查询、统计,乃至是部分创作意图和学术思想的笔墨表述)替代,还包括打算机编程措辞的“算法”成为文学研究的一个问题。
算法的核心是“天生性”,从而使“可写阐释”成为可能;以算法为方法赞助文学研究的数字人文研究在实现人工智能技能的升级之后,也使得推进以文学意义的“正态分布”和“均值”为特点的“总体阐释”的文学研究成为可能。

(参考文献 略)

(本文首次揭橥在《华中师范大学学报》2023年第5期)