作为人类活动的载体,措辞承载着丰富而浓厚的社会文化信息,关涉人类创建的所有学科。
它存在并寄托于人类社会,做事于经济、政治、文化等社会生活的方方面面。
广义上的措辞资源是任何措辞单位的凑集,具有可利用性、稀缺性、可再生性、不平衡性、社会性和继续性等特性。
随着数字技能的迅速发展,措辞资源已成为自然措辞处理向智能化发展的条件和根本。
特殊是天生式人工智能的发展与运用,使措辞资源的主要性加倍凸显——能够为大措辞模型学习和理解人类措辞的繁芜性供应数据支撑,从而实现更准确的措辞理解和天生。
新文科背景下的跨学科研究,一样平常指某一人文学科借用其他人文学科或自然学科的理论、工具和研究方法等,来办理本学科难以或不能满意办理的科学问题的研究。
在办理不同学科彼此关怀的问题时,匆匆进措辞资源(或数据)共享,有助于打通多学科之间的壁垒,从而能够用更广阔的研究视角探究更多样的研究问题。

措辞本钱共享助力跨学科研究_措辞_资本 AI快讯

狭义上的措辞资源包括词汇资源、语法资源和语义资源,还包括基于措辞信息处理的措辞知识库、语料库和词典等。
详细而言,词汇资源作为措辞资源的根本,包括词形、词性、词形序列、词性序列、词嵌入和措辞模型等。
语法资源是措辞资源不可或缺的主要组成部分,包括句型、句式、构造等表示出来的语法规则、语法关系、语法意义和语法范畴等。
语义资源是人类对外界事物、征象、关系的基本或直接的认知结果,客不雅观存在的相同事物大致对应相同的语义资源。
在对措辞资源的开拓利用上,词汇资源丰富且词性标注技能趋于成熟;语法资源的解析方法较多,性能基本令人满意;语义剖析起步较晚,性能不尽如人意。

常见的措辞资源形式是词典和语料库。
国际上,措辞资源同盟(LDC)拥有1993—2023年间的几百个资源,包括阿拉伯语、汉语和英语***文本、布朗语料库全文、美国英语口语词汇、汉英平行对应词表等。
详细的词典和语料库则包括美国普林斯顿大学WordNet英语词典、美国宾夕法尼亚大学VerbNet词典和PropBank语料库、美国当代英语语料库(COCA)、美国卡内基梅隆大学TalkBank口语语料库、英国国家语料库(BNC)、联合国文件数据库等。
同时,海内涵词典和语料库的开拓与培植方面也取得了显著进步。
比如,中文措辞资源同盟(CLDC)拥有汉藏双语语料库、维吾尔语—汉语平行语料库、汉蒙平行语料库、汉语情绪语料库、汉语普通话语音库等99个资源。
此外,还有来自北京措辞大学的BCC汉语语料库、北京大学中国措辞学研究中央的CCL语料库、哈尔滨工业大学社司帐算与信息检索研究中央构建的《大词林》,以及中文开放知识图谱平台上海内高校和研究机构共享的200多个多学科数据集和知识图谱等。

目前,措辞资源已受到天下各国的广泛关注。
比如,1992年,措辞资源同盟在美国宾夕法尼亚大学成立;1995年,欧洲措辞资源协会(ELRA)在卢森堡成立,跨欧洲措辞资源根本培植工程学会(TELRI)成立;1998年,措辞资源与评测会议(LREC)在西班牙举办。
在海内,措辞资源也受到重视。
比如,2001年,中文措辞资源同盟成立;2004年,国家措辞资源监测与研究平面媒体中央在北京措辞大学成立,随后又分别成立了网络媒体中央、外洋华语研究中央、教诲教材措辞中央、有声媒体措辞中央;2015年,我国启动中国措辞资源保护工程,广东、湖南、江西、浙江、河北等地陆续启动了方言调查保护事情;2021年,北京措辞大学设立措辞资源学博士专业,标志着我国措辞资源研究的学科化,是交叉学科培植的一次主要实践。

措辞资源是措辞学、文学、哲学、人类学、社会学、历史学、经济学等多个人文学科的主要切入点。
在措辞学领域,措辞资源被视为人类措辞的主要组成部分,措辞学家探索措辞的起源、蜕变和多样性,研究语音、词汇、语法、语义、语用等多个方面。
在文学领域,文学家关注作家如何利用措辞资源来表达和构建人物形象、叙事构造以及文学风格。
在哲学领域,措辞资源被看作人类思维和互换的根本,哲学家研究措辞的真值、意义和理性等内容。
在人类学领域,人类学家关注不同文化和措辞社群之间的措辞利用办法和措辞差异。
在社会学领域,社会学家研究措辞在社会中的利用、功能和变革,以及措辞与社会身份、权力关系和社会构造之间的相互浸染。
在历史学领域,措辞资源是历史文献的主要来源,历史学家通过研究历史文献中的措辞利用、语义变迁和措辞变体等还原特定历史期间的措辞状况。
在经济学领域,经济学家通过措辞资源深入剖析市场动态与消费者行为,并解读各种经济征象。

措辞资源在助力跨学科研究时,也面临以下寻衅。
一是数据标准化问题。
不同学科领域可能利用不同的数据格式和标准,须要制订统一的数据标准和格式,方便不同学科领域的研究者利用和共享措辞资源。
同时,不同学科领域存在各自特有的术语、方法和范式,因此还须要制订元数据标准和数据交流协议以提高数据的共享性和互操作性。
二是数据质量问题。
确保共享的措辞资源质量至关主要,由于低质量的数据会对研究的可靠性产生负面影响。
数据的质量掌握包括:数据洗濯,去除缺点或不一致的信息;数据标注,担保数据的精确性和可理解性;数据校验,验证数据的准确性和完全性。
三是数据多样性问题。
在措辞资源共享中,确保数据集涵盖多种措辞、方言、文本类型和文化背景是一个主要寻衅,由于不同学科领域须要不同类型的数据。
办理数据多样性问题须要广泛的数据采集事情,包括文本、图像、音频、***、野外调查、社会调查等。
四是数据隐私和伦理问题。
措辞资源可能包含个人身份信息、敏感言辞以及其他涉及隐私的内容。
研究者和数据供应者可以采纳伪匿名化、数据脱敏等技能手段保护个人隐私,并制订伦理审查和道德准则,确保数据共享符合法律和伦理哀求。

措辞资源共享可以促进不同学科领域之间的互助与领悟。
如何更好地促进措辞资源的共享和创新,可以考试测验在以下几个方面努力。
一是创建共享平台和资源库,供研究者共享措辞资源和研究成果。
这些平台和资源库兼具数据存储、数据共享和协作处理功能,方便研究者跨学科互助、互换和协同研究。
二是组建跨学科研究组织和团队,举办跨学科学术互换会议。
通过互换和整合不同学科,如措辞学、打算机科学、社会学的专业知识和方法,从多个角度共同应对措辞资源的网络、标注、剖析和运用等方面的寻衅,提升措辞资源的兼容性和可及性。
三是支持鼓励出版跨学科的研究成果,出版发行跨学科期刊和出版物。
这样的出版物平台能够为研究者供应展示和分享跨学科研究成果的渠道,有利于学科间的交叉与领悟。

(作者系南京邮电大学国别区域研究中央研究员;东南大学外国语学院副研究员)

本文来自【中国社会科学网】,仅代表作者不雅观点。
全国党媒信息公共平台供应信息发布传播做事。

ID:jrtt