适当的整体图景

Data used to track, manage, and optimize resources.
Post Reply
Bappy11
Posts: 366
Joined: Sun Dec 22, 2024 6:03 am

适当的整体图景

Post by Bappy11 »

1.2 ZUCCARO 信息系统作为知识图谱
在复杂的知识图谱中,例如我们用作示例的赫尔辛基图书馆的ZUCCARO信息系统[5] ,文化历史知识基本上以参与者或实体之间基于时间的关系的形式表示。通过个案,我们希望清楚地展示在历史数据框架内建模不确定性的可能性。 ZUCCARO是一个历史文化研究的信息系统。它是由罗马赫尔齐亚纳图书馆(马克斯普朗克艺术史研究所)的作者从 2003 年开始构思和开发的。它自 2005 年以来就在关系数据库系统中进行了原型设计,并自 2008 年以来可以在线访问。底层数据模型设计为通用且同时可扩展,以便支持不同文化研究领域的研究项目。该系统可以作为一个通用存储库;原则上它适用于历史学科中所有常见的标准格式。

目前该系统主要用于收集意大利,特别是罗马艺术史的信息和图像。该数据库主要由Lineamenta(18 世纪意大利建筑图纸)和ArsRoma (卡拉瓦乔社交圈中 1600 年左右的罗马绘画)研究项目的材料组成。该系统还包含许多其他藏品,特别是关于罗马市地形(建筑物、机构、城市地图、风景)、19 世纪艺术家在意大利的逗留情况以及该研究所图书馆的许多罕见数字副本。项目数据用标签标记,但从技术上讲并没有进一步区分。因此,数据集从根本上来说是开放和可扩展的:它包含通用主数据和无数的交叉连接,因此永远不能被视为“完整的”。随着每个新输入,知识网络变得更加密集,因此更加有用。

文化历史研究不仅包括对实物、文物和建筑物进行分类,还考虑历史、政治社会和意识形态概念背景。除了作品之外,它还致力于人物、机构、社会团体、职业和社会功能。这些内容通常被称为“元数据”,它们本身往往是重要的研究主题。因此,作为我们信息系统的框架,它们主要不用于对象索引,而且也被视为一阶数据对象。此外,该研究还考察了形式、内容相关和地形背景,并考虑了档案、文件和专业出版物。所有这些项目在 ZUCCARO 中都被视为平等,可以通过有针对性的查询和探索性浏览进行研究。

文化历史知识源于信息网络化。它是通过记录涉及人物、物体、地点和无形概念的历史事件而形成的,并且通过资料和文献进行历史记录。 ZUCCARO 通过将每个静态对象(无论是主动的“行为者”还是被动的“对象”)视为所谓的实体来考虑这种知识结构。实体仅仅是对象的数字代表。数据记录使用唯一 标识符进行寻址,并可以通过属性进一步定义 ,例如通过不同语言的名称或指定。

可以在这些抽象实体之间建立具体的关系。真正的历史知识就蕴含在这些关系中。一般来说,两个实体之间的这些关系可以按照主语-谓语-宾语的模式,用简单的陈述句(语义三元组)的形式来表示,例如:《夜巡》是伦勃朗的作品,或者:《戴金头盔的人》是用布面油画技巧创作的。[6]

如果我们把时间因素以日期的形式添加到这种简化为基本要素的陈述中,就会得到一个数据集,该数据集可以被视为不可简化的微观历史元素,在某种意义上是最小的可能历史事件,例如:›伦勃朗于 1639 年在 Jodenbreestraat 购买了房子‹。伦勃朗和房子是固定的实体,而扩展谓词›1639年购买‹建立了两个实体之间的历史关系。

这样,历史事件就成为我们数据模型的中心(图1)。我们将这种实体之间的关系通过日期或时间段进行扩展的概念称为“事件”。这种数据格式允许所有内容实体以简单、通用的方式连接。当然,恋爱关系并不一定要有个日期;它还可以通过附加属性来进一步限定。这可能涉及指定关系类型,例如 [伦勃朗] – 是 – [Pieter Lastman] 的学生,或指定数量,例如 [伦勃朗故居] – 有 4 个 – [窗轴]。

图 1:ZUCCARO 信息系统示意数据模型(截至 2013 年)。版权归 CC-BY-NC-SA 4.0 所有。
图 1:ZUCCARO 信息系统示意数据模型(截至 2013 年)。版权归 CC-BY-NC-SA 4.0 所有。
当然,许多文化历史陈述都是可以想象的,但无法用这种通用格式轻易捕捉到。然而,这个概念非常适合技术实现,并且能够对任何方面和问题下的数据集进行灵活的搜索。这个概念的第二个方面至关重要:不仅实体可以相互关联;关系记录又可以通过它们自己的关系链接到其他记录。因此, 这些关系就被具体化了[7],也就是说,它们本身被视为静态对象。通过这种方式,不仅可以将其他情况与关系联系起来,例如购买价格或卖方,还可以将历史或科学证据联系起来,例如档案项目或带有页码的出版物。此功能尤其重要,因为它可以体现科学依据的要素。通过将关系与证据联系起来,数据库提供的历史信息变得可验证。只有这样,关系才具有科学性,并且不同于链接开放数据背景下的简单链接,因为在简单链接中,声明的依据并不明确。因此,关系变成了应该由图中的节点实际表示的对象实例。这产生了一种不易与经典图论兼容的混合结构。[8]

当将许多这样的“微事件”放在一起考虑时,就会清楚地看到数据模型如何表示更复杂的历史背景,例如,根据艺术家所访问过的地方而制定的艺术家传记,根据与赞助商和客户的联系而制定的艺术家职业生涯,根据担任职务的人员顺序而制定的艺术家职业生涯,或者根据现已分散的历史收藏而制定的艺术品。当然,这样做的前提是针对给定的问题有一个密集且一致的数据集。

大多数传统的数据库模型很难表示来自如此不同角度的科学查询。幸运的是,这种针对不同研究问题的“多焦点”研究数据组织方式在数字人文学科领域越来越受到认可。 ZUCCARO 的数据模型受到古代人口普查接收数据库[9]和文化研究本体CIDOC-CRM 的启发。 [10]然而,它的设计从根本上来说是通用的,并不限制用户选择的观点或研究主题。从信息技术意义上讲,数据模型代表所谓的属性图。这种类似网络的数据结构由节点(实体)和边(关系)组成,两者都可以具有属性(字段或属性)。[11]近年来,人们对此类数据模型的兴趣日益浓厚,这更加坚定了我们的信念,相信我们所走的道路是正确的。

借助这种基于属性图原理的数据模型,所有数据都可以理想地表示为没有冗余的扩展三元组结构。目前,ZUCCARO 作为专有关系数据库系统中的原型实现,并配备了基于 XML 输出数据和使用 XSLT 模板进行渲染的 Web 前端。所有关系都必须使用表之间的连接来映射,这可能变得非常复杂并影响性能。随着图形技术的出现,数据模型首次获得了充足的软件基础支持。基于现代网络技术的图形数据库系统和框架的实现已经准备了一段时间了。Neo4j计划作为数据库软件,Mojolicious或Phoenix [12] 作为管理界面。特别强调语义网领域的连接性和接口。它应该通过标准化的格式和接口来实现,例如通过GraphQL中制定的API。[13]

1.3建模差距:抽象带来的不确定性
无论何时要将历史事实和背景转换成抽象的数据库格式,都会出现从模拟连续体到数字碎片化的转变问题。传统的基于文本的历史表述的流动时空发展必须分解为事件、时间段、空间元素和意义单位,以便能够以数字形式存储它们,并根据研究兴趣进行比较和重新聚合它们。关于合并或分割事物的决定变得必要:自然的边界在哪里?我们在多大程度上分裂了世界?例如,一栋建筑物构成一个单位——从数据上看,将其与邻近的建筑物区分开来是有意义的。另一方面,它可能由主建筑和附属建筑组成,并有不同的建设阶段——您将如何划分?

并非所有产生的数据片段都同样广泛或重要。与现实相比,出现了数字粒度比例问题:当单独建模时,小事物在数据存储中获得不成比例的权重。数据集没有维度:王子城堡的表格与园丁房子的表格具有相同数量的字段。这种差异在 CAD 模型方面尤为明显:例如,德绍包豪斯的整个结构由简单的长方体形状的元素组成,与具有自然叶形和曲线的单个科林斯柱头相比,它可以用更少的多边形来建模。

但当转移到数字世界时,不仅仅是分解和相关的抽象会带来现实的扭曲。在文化史领域,还存在着进一步的困难,这最终使得在数字空间中产生足够比例的历史现实图像变得根本不可能——即使它只是其中的一小部分。这是所有历史研究的基本问题:在极少数情况下,可以获得如此完整和全面的信息,以至于似乎有可能描绘出一幅平衡的、“统计上”正确的历史状况图景。传统研究和历史研究之间的差距意味着,一般来说,只有零碎的、或多或少具有示范性的数据可供使用——例如,某个群体中的个人的数据,或者一个较长过程中几年的数据。自然语言文本可以通过多种表述方式对科学表达进行细微化,以便一方面正确地详细衡量事实,另一方面创建反映的、。数据库不能做到这一点;他们也许能够忠实地描述资料来源,但却无法全面重建甚至综合现实。

因此,摆脱困境的务实方法可能是在做出有关抽象和粒度的决策时以现有资源为指导。时间和空间的划分由来源决定,例如人口登记条目每年仅收集一次。这同样适用于从建筑账户中获取的建筑阶段的命名。阅读和解释资料来源英国电报数据 时出现的所有问题都会反映在数据库中。在这种情况下,不确定性不是源于抽象,而是源于放弃历史解释。因此,这样的数据库很难被描述为“文化历史信息系统”,而应具有结构化源版本的地位。

诸如 ZUCCARO 之类的信息系统并非专门复制原始资料,而是利用来自二手文献或甚至普遍已知的事实的隐含事实,由于系统原因,它无法弥合建模差距,即现实与模型之间的智力距离。信息系统仅供参考。它是一种查找工具,最多可以提供当前研究状况的快速而清晰的概述,但它并不是虚拟的历史。数据库内容只能大致描述或“代表”历史现实的误解必须始终得到重新反驳:路标指明了方向,但它并没有引导道路。数字信息系统的目的是引起人们对已知事实、联系和研究意见的关注,并尽可能透明和合乎逻辑地准备和呈现这些材料。与任何科学目录一样,其历史真实性必须由用户根据所提供的来源自行验证和评估。因此,充分再现历史事件和事实的不准确性、概率和性质存在实际的限制。

2. 确实如此,可能如此,可能并非如此……
2.1 精确:精度和选择性
首先,应该注意,在基于图的数据模型中,两个代表实体的节点通过边相互连接,即关系。不安全感只能在关系中表现出来。一个模糊或不确定的实体可能是可以想象的(例如,神话中的图勒(Thule)地方或难以察觉的“时代精神”),但在科学陈述中使用它没有什么意义——除非我们指的是心理概念,而不是地点或行为者。即使有了既定的专业术语,也存在一些模糊之处,例如:亚麻籽油、蛋黄和颜料的混合物是否已经属于油漆这一术语?或者:这块石头可以被称为立方体柱头吗,或者它只是一块粗糙凿成的石块?或者:巴洛克时期何时开始和结束?尽管如此,这些术语定义明确。相反,是否能够正确地将一个实体(即研究对象)分配给一个特定的概念概念是不确定或有争议的。这里的不确定性也在于关系,而不是实体的定义过于模糊。
Post Reply