览器中的文本作为词节点链

Data used to track, manage, and optimize resources.
Post Reply
Bappy11
Posts: 366
Joined: Sun Dec 22, 2024 6:03 am

览器中的文本作为词节点链

Post by Bappy11 »

[Neill / Kuczera 2019]
图 10:Neo4j 浏览器中的文本作为词节点链。[Neill / Kuczera 2019]
与隔离属性一样,词链代表了 XML 文档格式的无标记替代方案,并为重叠注释问题提供了解决方案。但是,目前对词链的更新是通过图形数据库查询来管理的,这需要一定的编程专业知识。Codex 隔离属性编辑器在图形的多维可用性与文本流的技术简单性、持久性和可持续性之间进行了权衡。词链和隔离属性之间的另一个区别是,词链将单词作为最小的标记,这对单词内的注释提出了挑战(更不用说如何选择定义单词边界了)。

从注释的角度来看,最简单的解决方案可能是将字符而不是单词视为最小的标记单元;但是,将字符节点链作为图形数据结构进行管理将比单词节点链更加难以处理。但是,这假设字符本身需要表示为节点;事实上,注释的定义是它是具有特定意图(无论是风格、表现还是语义等)的文本区域。如果从标记节点概念转移到注释节点概念,那么文档的文本可以以纯文本格式(无标记)存储,注释可以使用起始和结束字符索引来注释文本。

删除嵌入标记使文本流对人类和机器都更易于阅读。它还解决了重叠注释问阿联酋电报数据 题,因为属性与文本分开存储,并且不受分层编码冲突的影响。多个属性可以根据起始和结束字符索引引用相同的文本区域(或重叠区域)。隔离属性本质上是离散的对象,它们共存于“扁平”层次结构中,也就是说,根本没有强加的层次结构。如果隔离属性引用数据库中的链接实体,则可以通过边轻松连接它,从而实现从实体到它们所引用的文本区域的完全可追溯性。
Post Reply