本书主要研究内容为开放领域文化遗产信息资源的知识图构建与应用研究,从基础理论、模型构建、方法实现以及实践应用四个方面进行展开,以互联网中的中国十大传世名画信息资源为研究对象进行。中国十大传世名画中的文化遗产时代分布从东晋至清朝,横贯中国历史一千五百余年,作为分析对象能够全面展现不同时期文化遗产的特点。本书旨在从两方面改进现有的文化遗产信息资源知识管理现状,一是提出一种面向开放领域文化遗产信息资源的知识图谱构建框架,为文化遗产信息资源的开发与利用提供良好的数据基础;二是构建一个具有广泛应用场景的文化遗产信息资源知识组织方法,充分解析文化遗产信息资源,为受众提供更为精确与便捷的文化遗产知识服务,更好的在新媒体环境下进行文化遗产知识的传播。
前言网络中大量信息资源在拓宽受众知识来源的同时,也为知识的高效获取带来了巨大的挑战。文化遗产领域就是一个典型代表,网络的迅速发展为文化遗产信息资源的传播与利用提供了新的平台,极大促进了文化遗产知识的共享与交流。然而文化遗产信息资源却有着专业性强、分类复杂、动态累积、资源散乱等特点,其特有的知识深度增加了受众获取及理解有关知识的难度。因此,如何从海量信息资源中精炼文化遗产知识,构建自动化流程对信息资源中的文化遗产知识进行抽取与组织,建立具有针对性的知识表示体系,创新面向网络环境的文化遗产知识精准服务方法,成为新时代文化遗产知识传播以及发扬和传承中华优秀传统文化所面临的重要问题。基于此,本书从数字人文视角对文化遗产信息资源进行分析,探索其共性特点与个性差异,再选择相适应的数字化方法进行文化遗产知识的发现、融合、重构以及知识图谱构建,并根据信息资源内容和结构特征获取文化遗产知识,利用本体和语义相似性对齐知识,使用知识图谱进行知识表示,弥合信息资源与受众间的知识鸿沟,促进文化遗产知识在新媒体时代的传播与推广。全书共分为5章,每章的主要内容如下。第1章,概述。本章首先阐明了本书的研究背景及意义,在对国内外文化遗产信息资源有关研究进行梳理的基础上,发现了当前研究的不足之处,指出互联网时代面对数量爆炸的信息资源时,需要结合数字人文相关方法建立一套有针对性的方法自动构建知识图谱。利用知识图谱的应用发现和推广文化遗产知识,是现阶段文化遗产信息资源研究亟须探索的内容。在此基础上,本章还探讨了数字人文与知识图谱在文化遗产信息资源知识管理中的重要作用,阐明了文化遗产信息资源知识图谱作为本书研究的支撑技术,也是构建数字化技术与人文信息资源管理协同关系的关键,而知识图谱是解决文化遗产信息资源知识服务问题的支点,具有方法上的可行性与架构上的先进性。本章作为面向开放领域文化遗产信息资源知识图谱构建与应用研究的理论起点,为下一步研究奠定了基础方法与理论依据。第2章,数字人文视角下的文化遗产信息资源特征分析。本章就文化遗产信息资源的特征进行了分析,其目的是从内容、知识以及统计视角分析信息资源特征,以便选择具有针对性的数字化方法进行接下来的知识抽取工作。从分析结果不难发现,文化遗产信息资源呈现出了典型的二元特征,常见的信息资源以文化遗产的基本知识为主要内容,在网络中的呈现具有内容相似、重复度高的特点,通过内容聚类的方法可以较好地捕捉该类型信息资源。而在专业文献及知识库中存在的文化遗产信息资源知识分布相对分散且重复度较低,在聚类中呈现出较为离散的特征。上述两类信息资源可以概括当下开放领域中绝大部分文化遗产信息资源的特征,根据这两类信息资源的特点选择不同类型的数字化方法进行知识的相关研究可以有效地提升知识抽取效率,为知识图谱的构建提供更高效的方法。第3章,数字人文视角下的文化遗产信息资源知识抽取。知识抽取是构建知识图谱的基础,也是知识图谱应用的前提,知识抽取的全面性与质量直接影响后续研究的进行,文化遗产知识体系是一类严谨的知识体系,其对知识质量的需求要大于全面性的需求。本章围绕如何利用数字人文视角下的文化遗产信息资源特征分析结果与远程监督方法从开放领域的非结构化数据中抽取实体,利用信息资源主题关键词从知识库中检索与之有关的知识进行论述。为了尽可能从多个知识来源获取文化遗产知识,本章还提出了基于多知识库的知识对齐方法,扩展了远程监督方法中外部知识库数据来源的范围,为后续知识图谱的构建打下了良好的数据基础。第4章,数字人文视角下的文化遗产信息资源知识图谱构建。本章是数字人文视角下进行文化遗产信息资源知识图谱构建的核心,依据前几章的研究结果,从信息资源中抽取主题关键词后,结合外部知识库进行命名实体识别与知识抽取,得到了文化遗产信息资源知识图谱构建的数据来源。在此之上,本章将知识图谱的构建过程划分成知识抽取、知识对齐、图谱构建与知识可视化。本章从框架上高度完整梳理知识图谱的构建流程,厘清文化遗产知识图谱的构建过程,为知识图谱在文化遗产信息资源中的应用提供了良好的数据支持。第5章,数字人文视角下的文化遗产信息资源知识图谱应用。本章在数字人文视角下对文化遗产信息资源进行知识抽取、知识发现与知识推荐,进行知识图谱在文化遗产信息资源中的应用研究,在知识抽取后进行多视角下的知识分析。在知识标引中,本章使用绘画类文化遗产信息资源知识图谱对湖北省博物馆网站的有关页面进行了知识抽取、命名实体识别、实体链接、关系链接等知识标引研究,取得了较好的标记效果,同时利用知识图谱从整体角度对文化遗产知识进行了深入的分析。对于绘画类文化遗产信息资源知识,本章首先选择深度学习的有关方法,利用前文所述的方法对绘画类文化遗产信息资源进行知识标注后,将得到的标注数据作为训练集,然后使用预训练语言模型获取信息资源的文本特征,将所标注数据与句子级别文本特征相融合,依据长短时记忆网络与注意力机制获取实体关系在句子中的位置特征,*后利用训练数据进行未标注信息资源中的知识发现。该知识发现方法在发现文化遗产信息资源中隐含知识的同时还可以针对两实体间不同的关系进行分辨,即当两实体存在多种关系时,可以选择出*符合当前语境的关联关系。在基于百科网站的知识推荐中,本章基于网络视角对知识图谱进行分析,在文化遗产信息资源之外建立起一套文化遗产知识重要程度的计算方法,再结合需要进行推荐的信息资源中实体的出现频率、位置等内容信息共同计算知识的重要程度,*终得到融合后的文化遗产信息资源知识推荐结果,进行基于文化遗产信息资源语境的知识推荐。三种类型的应用为数字人文视角下文化遗产信息资源知识图谱的应用提供了指引。文化遗产信息资源的有关研究作为弘扬中华传统文化、实现中华民族伟大复兴征程的重要组成部分,仍有诸多问题需要解决。本书系湖北省社科基金一般项目(后期资助项目)数字人文视角下的文化遗产信息资源知识图谱构建及其应用研究(项目编号HBSK2022YB376)与湖北省图书馆学会科研项目智慧图书馆建设背景下的阅读推广服务研究(课题编号stxh2022B05)的部分研究成果。希望本书能够为读者提供些许帮助。著者2023年5月
1概述(1)
1.1数字人文(2)
1.2知识图谱(18)
1.3文化遗产信息资源(25)
2数字人文视角下的文化遗产信息资源特征分析(42)
2.1文化遗产信息资源的特点(43)
2.2数字人文视角在文化遗产信息资源分析中的优势(45)
2.3数字人文视角下的文化遗产信息资源分析框架(48)
2.4数字人文视角下的文化遗产信息资源特征分析实验(49)
3数字人文视角下的文化遗产信息资源知识抽取(69)
3.1基于关键词抽取的文化遗产信息资源命名实体识别(69)
3.2多知识库融合的文化遗产信息资源实体关系抽取(80)
3.3面向文化遗产信息资源特征的知识抽取模型(86)
3.4绘画类文化遗产信息资源知识抽取实验(89)
4数字人文视角下的文化遗产信息资源知识图谱构建(111)
4.1文化遗产信息资源知识图谱构建框架(111)
4.2文化遗产信息资源本体构建以绘画为例(116)
4.3基于本体与语义的文化遗产知识融合(122)
4.4基于知识融合的文化遗产知识图谱生成(129)
4.5绘画类文化遗产信息资源知识图谱构建实验(133)
5数字人文视角下的文化遗产信息资源知识图谱应用(145)
5.1数字人文视角下的文化遗产信息资源知识图谱应用场景分析(145)
5.2融合知识图谱与深度学习的文化遗产信息资源知识发现(147)
5.3主题知识图谱关联的文化遗产信息资源知识推荐(164)
5.4湖北省博物馆网站绘画类文化遗产知识标引实验(169)
5.5故宫博物院网站绘画类文化遗产知识发现实验(172)
5.6百科网站绘画类文化遗产知识推荐实验(183)
后记(187)