源的创建时间与指定

Data used to track, manage, and optimize resources.
Post Reply
Bappy11
Posts: 366
Joined: Sun Dec 22, 2024 6:03 am

源的创建时间与指定

Post by Bappy11 »

在许多应用程序中,每天都会识别和定位地点。[1]火车售票机、汽车导航仪或互联网搜索引擎只是几个随意的例子。但其背后的原理往往是相同的:输入一个位置或至少是其中的一部分后,应用程序会建议一个或多个位置供选择。最终的选择可以由人类做出。然而,如果没有人可以做出最终选择,则决策必须基于先前定义的标准。然而,由于地名的重复、相似和变化,这并不是一件容易的事。

[ 2 ]例如,在德国(和欧洲),有许多地方被称为 Neustadt。其中,仅有 36 人被归类为欧洲新城工作组 。[2]此外,还有几个地区也以这个名字命名。如果加上现在已不再使用的历史术语,数量就更多了。一方面,这可能是因为这些地名如今已经不再使用,因为该地方要么不再存在,要么已被重新命名。[3]另一方面,历史位置信息也可以描述一个地点,尽管该地点的相关性不再足以获得单独的指定——但它并没有完全消失。也有可能这个地方被一个更大的地方所吸收;在过去的几个世纪里,村庄等小型定居形式已经消失。因此,当今地名本地化面临的挑战在历史名称(以下称为城市地名[4])的分配方面更加严峻。

[ 3 ]然而,历史位置信息很少独立存在,而是被上下文信息所包围。嵌入在连续文本中的附加信息可以揭示它位于哪个位置。例如,地址簿可能包含其他位置信息或有关更高级别地方当局的信息。这种信息被称为上下文,可用于识别。随后,可在此基础上对该地点进行地理定位。在本研究中,定位意味着将物体分配到地球表面物理空间中的地址的位置确定。[5]目前尚不清楚用于识别和定位历史城市地名(尤其是德语城市地名)的单独自动化解决方案。本文提出了一种算法作为解决方案,以上下文敏感的方式定位历史位置信息[6],从而弥补了这一空白。图 1提供了这些术语的概述 。

[ 4 ]然而,对于许多科学问题来说,仅仅定位位置信息是不够的。相反,确定地点的(历史)行政隶属关系并聚类所有相关位置信息也很重要。因此,该算法还提供了一种根据特定时间点的行政隶属关系对地点进行聚类的方法。该算法主要使用来自家谱数据库 (GEDBAS) 的家谱 GEDCOM 文件[7]中的城市名进行测试,但也适用于其他来源。这也符合 Gellatly 的建议,即开发用于地理编码位置信息的软件。[8]

[ 5 ]在下一章中,首先考虑各种现有的解决方法,并在此基础上开发算法。然后使用 Python 编程语言实现开发的算法,并使用来自 GEDBAS 的 GEDCOM 文件进行验证。最后进行了总结。

图 1:术语和上下文概述。 [戈德堡 2022]
图 1:术语和上下文概述。 [戈德堡 2022]
2. 城市地名的识别与定位
[ 6 ]识别描述了将城市名(例如›柏林‹)分配给一个物理存在的实体 – 一个地方(例如柏林,德意志联邦共和国的首都)。另一方面,定位包括为该位置分配坐标。即使定位是主要目标,主要的挑战还是在于先前的识别。这是因为,几乎所有(已识别)地点的地理坐标都很容易确定,但各种历史因素使得清晰识别变得困难。

[ 7 ]下面描述了本次挑战各个方面的最新进展。首先,我们解释背景如何有助于决策。随后,简要讨论了相关的搜索算法和相似性分析方法。由于只有借助(历史)地点目录才有可能识别城市地名,因此这些城市地名也被考虑在内。最后,介绍了本研究中用于验证算法的GEDCOM数据结构。

2.1 情境敏感的决策
[ 8 ]上面给出的柏林的例子清楚地表明了这个问题:除了首都之外,还有另一个实体,例如例如,这可能意味着德意志联邦共和国的柏林州或石勒苏益格-荷尔斯泰因州西多夫市的柏林区。[9]如果没有进一步的信息表明该地点指的是什么或在什么背景下提到的,就无法明确地作出识别。与词语的使用相关的信息称为›上下文‹。 Dey 和 Abowd 认为,从信息技术角度来看,上下文是任何可以用来描述实体情况的信息。[10]使用这种上下文的系统被称为“上下文敏感的”。[11]因此,上下文敏感系统需要流程执行时的灵活性。背景作为一种外部影响,能够导致信息加工内部过程的调整。[12]例如,根据位置显示天气预报,或根据环境光改变屏幕亮度。在 CARS(基于上下文的推荐系统)中,用户还可以根据他们可用的上下文信息进行决策。[13]此外,可以根据具体情况在几种具体方案之间做出独立的决策,而无需人工干预。

[ 9 ]本地化需要做出决策来定义特定地名和位置之间的联系。这样的决定可能是正确的,也可能是错误的(根据二元分类器)。然而,无法做出任何决定 — — 而这也可能是正确或错误的。例如,如果地名是›John Michael‹并且不代表城市名,那么对某个地方未做出的决定可能是正确的,但是 - 如示例中所示 - 可能是由于输入错误而导致的并且代表名字(TN)。这些星座如表 1所示。同样的方案也适用于定位和随后的区域分类。目标是获得尽可能多的 T* 分配,同时保持较低的 F* 率。

身份正确 身份识别不正确
身份识别已完成 真正例 (TP) 假阳性(FP)
未进行身份识别 真阴性 (TN) 假阴性(FN)
表 1:基于 Fawcett 的地名识别混淆矩阵。 [Fawcett 2006,第 862 页]

[ 10 ]以柏林为例,在联邦国家的列表中,会提及国家这个实体,而在所有的首都列表中,则会提及作为德国首都的柏林这个实体。根据上下文可以推断出它是国家还是城市。这个结论是启发式的结果:列表中的所有值都描述国家,因此最后一个值很可能也是一个国家。但该值可能并不代表一个国家,这会导致结论不正确(FP)。启发式方法并不能保证正确的结果,[14]它的作用是在有限的知识和很少的时间内找到一个可能正确的解决方案。[15]从这个意义上讲,当环境不允许明确地做出决策时,情境敏感决策就是启发式程序。为了在技术系统的决策过程中使用启发式方法,其形式化是必要的。启发式方法的编程形式化随后会产生一种(启发式)算法。

[ 11 ]为了使用地名的上下文将其分配给实体,必须定义影响决策过程的启发式方法。 Zandhuis 等人说出三种融入上下文的方式:

该地点的创建地点,
领土归属和因为指定可能会受到时间波动的影响。[16]
[ 12 ]尤其是对于二手资料而言,(一手)资料的创建地点并不相关或未知。此外,区域信息并不总是可用的。这同样适用于时间信息。此外,在二手资料中,地名的语言适应性(适应于二手资料创建时的拼写)可能已经发生。

[ 13 ]由于这些困难,上述三点不足以进行识别。但是,可以找到其他上下文信息:地名的上下文可以包含可能相关的其他位置信息。在适当情况下,上下文还可能包含有关实体之间的地理距离、共同的行政隶属关系或任何其他关系 巴拿马电报数据 的具体信息。此外,上下文中的时间信息可以支持位置信息的识别。但不仅提到地点,而且提到人名也可能具有相关性:名字的频率随时间而变化,因此可以估计出生年份 - 从而可以估计地名的时间位置。[17] 然而,人名的地区密度和频率似乎更为重要:姓氏的使用在地理上往往不是均匀分布的。[18]图2以姓氏›Hinse‹为例,展示了相对和绝对分布。在威斯特伐利亚地区可以看到密度的增加。[19]因此,更有可能的是,该名称与威斯特伐利亚地区的地方有关。

图 2:姓氏 Hinse 的相对分布(左)和绝对分布(右)。 [Goldberg 2022,与 Geogen Deutschland 共同创作,Stöpel 2021a]
图 2:姓氏 Hinse 的相对分布(左)和绝对分布(右)。 [Goldberg 2022,与 Geogen Deutschland、Stöpel 2021a 共同创作]
[ 14 ]在德国,名字的命名也存在地区差异[20],这可以部分归因于不同教派对洗礼名的命名偏好不同。[21]

2.2 搜索算法和相似度分析
[ 15 ]所有(先前)存在的地点都可以显示在列表中。它们代表一个有限集。但是,由于有(或曾经有)数十万个位置,每次只能选择一个,因此搜索算法的选择很可能会对性能产生重大影响。搜索列表的算法多种多样,它们通常适合各自的应用。由于地名是字符串,因此字符串匹配算法在这里特别相关。地名作为实体的一个属性,可以与地名进行比较。

[ 16 ]搜索算法从根本上可以分为简单搜索和知情搜索。与简单搜索相比,知情搜索涉及有关搜索空间的知识。[22]对于给定的位置列表,使用一个简单的搜索程序,但是在选择搜索算法时,运行时间和准确性特别令人感兴趣:虽然在列表中的线性搜索中必须考虑每个元素,但在二进制搜索中只需要进行对数次比较。事实证明,在处理大量城市名词时,应尽可能避免线性搜索;相反,使用二分搜索算法是合适的。为此,必须对可能的目的地进行按字母顺序排序。
Post Reply