职业信息在历史资料中随处可见,为人们提供了重要的信息。然而,由于没有通用的职业记录系统,因此存在许多不同的拼写和名称,大多是由来源预示的。同时,社会和科学界也创建了各种分类系统,通过职业分类来构建和组织有关个人的信息。参与职业在很多层面上都很有价值。从这个意义上讲,它不仅对经济和社会历史特别有意义,而且在考虑工作发展时也同样重要。单个工作信息的分类是一项具有挑战性的任务,特别是因为几乎所有可以想象到的职业拼写变体都能够被手动记录下来。对德语历史职业的自动分类是一种极好的解决方案,它能够以标准化的方式为历史资料提供可比较的方法,即使手动分类似乎过于费力。
[ 2 ]本文的目的是展示将历史职业信息自动分配给分类系统的可能性。将职业信息分配给已定义的职业变体在此称为词形还原[1]。然而,对于大量历史职业信息的自动词形还原系统仍然缺失。因此,正在开发一种自动词形还原算法。
[ 3 ]职业信息在连续出版物中尤为常见,如今包括:用于家谱研究。这些包括教堂登记册、税务登记册、地址目录、公民登记册或各种官员和非专业法官登记册。这里描述的大多数职位名称都来自16至19世纪的资料,并辅以现代分类系统中的职业名称。这些资料越古老,它们描述的往往就不再是职业,而是就业或专业地位。从历史的角度来看,分析这种对“阶级”的解释作为一种定义方法,并确定它由哪些不同的维度构成,是很有趣的。职业只是众多信息中的一条。[2]这种由时间决定的定义的特殊性,偏离了现有的职业定义,也使得组织和可靠地确定职业组成部分成为一项信息技术挑战。例如,这些列表包含有关妇女或儿童的当前婚姻状况(单身、已婚、丧偶、儿子、女儿等)的信息,或有关家庭在职户主的信息。
[ 4 ]除了历史分类系统的问题之外,还可以概述在原始语言中对历史术语进行词形还原时出现的进一步的信息挑战。由于职业信息密度高,处理非常耗时,尤其是在家谱-人物志数据源中。迄今为止,自动化实施方法主要针对现代(标准化)和英语工作信息。[3]
[ 5 ]开发一种用于现代地位和职业信息的自动词形还原方法对数字人文学科做出了重要贡献,因为它支持借助信息技术解决方案进一步研究历史问题。由于每种语言信息的特殊性,以下内容将仅限于德语地区。所使用的分类系统是以前未发布的 德语历史官方和专业头衔本体(OhdAB)[4]的测试版本,它基于2010 年职业分类(KldB 2011)[5]的方法,并将这种方法扩展为包括历史职称。为此,我们开发了一种算法,可用于广泛领域的进一步科学工作。它代表一种自动获取有关工作分类的信息的方法。该算法是针对德语、现代、家谱人物志资料中的职业信息而设计的。为了进行开发和验证, 使用了来自家谱数据库(GEDBAS)的职业信息。但是,来自其他来源的职位也可以使用该算法进行分类。自动化方法带来了显著的好处,特别是在处理大型数据集时。在介绍算法之前,下一节将描述当前的研究状况。然后介绍其技术实现,并验证该算法。最后是总结与展望。
2. 研究现状
[ 6 ]职位信息自动分类算法的挑战在于合并描述同一事物的不同条目。这项任务本质上是一种重复检测,其中识别并合并词源相同但拼写不同的重复项。第一小节从家谱的角度介绍职业信息。接下来讨论数据清理和词形还原,最后重点关注职业分类的具体特征。
2.1 家谱资料中的职业信息
[ 7 ]在许多历史和个人资料(例如教堂记录)中,有关职业和地位的信息是强制性的信息。随着 19 世纪统计数据记录的不断增加,这种趋势愈演愈烈,并出现了第一批制定职业标记标准的法规。随着帝国民事地位制度的世俗化,一个新阶段开始了。例如,从 1874 年起,普鲁士要求强制记录人们在出生、结婚和死亡时的“身份或职业”。[6]随着 19 世纪以职业为中心组织起来的社会体系的出现,阶级和行业的记录对于国家运转具有了核心功能,[7] 随后,职业分类机构也随之发展。此外,通过指定职业,可以区分同名的人。[8]因此,许多家谱学家也收集这些信息也就不足为奇了。除了家庭关系和生活数据外,数据集中还添加了有关地位和职业的信息。
[ 8 ]GEDCOM 格式已成为此类家谱数据交换的准标准。[9]在这种基于文本的格式中,人们的特征被赋予了所谓的标签。有关工作类型或职业的信息在标签›OCCU‹中指定。[10]但您可以在此处输入任意自由文本,因此不会对条目是否与此定义兼容进行内容检查。
2.2 数据清理与词形还原
[ 9 ]由于状态信息不一定只包含有关职业的信息(无论是在教堂登记册等主要来源中还是在准备好的 GEDCOM 文件中),因此有必要处理这些数据以便提取相关信息以便在专业分类系统中进行分类。为此,我们现在将仔细研究数据清理、相似性和距离测量以及分类的基础知识。
2.2.1 数据清洗
[ 10 ]在数据清理过程中,会检测并删除错误和不一致性(以下也称为“异常”)。[11]例如,可能存在拼写错误、使用了缩写、在错误的字段中输入了名称,或者信息量可能太多。[12]在 Rahm 和 Do 的问题分类中,职业信息错误代表了单个事例(职业信息)层面的单源问题(职业信息来源)。然而,如上文所述,职业的背景概念对于历史数据也很重要。法律或婚姻状况的指示也能充分描述一个人的状况,而位置可能只是在错误的数据字段中输入的信息。
[ 11 ]为了解决这些定性问题,Müller 和 Freytag 提出了四步数据清理过程。[13]它始于数据审计(数据审计),在此过程中对数据进行解析和分析。这样就可以识别出句法异常,然后加以解决。第二步,指定数据清理过程(工作流规范)。纠正语法错误随后可以揭示其他异常。数据清理的后续执行(工作流执行)在最合适的更正和可接受的运行时间之间存在冲突。应避免手动返工,因为它会占用资源;然而,非自动化控制发生在第四步(后处理和控制)。然而,此处手动所做的更改可能会对学习系统中的数据清理产生持久影响。总的来说,这个过程必须迭代进行。
2.2.2 相似性和距离测量
[ 12 ]由于职业信息在历史资料中的拼写可能有所不同,因此有必要在申请的背景下识别它们之间的相似性。如果两个术语代表现实世界中的同一个实体,则它们就是重复的。[14]由于职位描述是语义字符串意义上的字符串,因此可以对其应用字符串匹配算法来检测模糊匹配。字符串的相似性可以用不同的度量来表示。在历史语言学中,Levenshtein 距离是一种适合用来展示词语之间可能存在的关系的方法。[15]识别同一个单词的两种拼写变体的挑战类似于识别两个单词之间可能存在的语言关系。由于Levenshtein距离也是两个字符串相似度分析最常用的方法[16] , 因此下文中也将使用它。它描述了从一个字符串到另一个字符串的单个字母的删除、插入和替换的次数。[17]
[ 13 ]还有其他相似性测量方法可能对类似的任务有用。示例包括 Jaro-Winkler 距离、随机加权 Levenshtein 距离[18]或深度学习算法,如 DeezyMatch 和 STANCE。[19]此外,还可以使用科隆语音学等语音相似性测量方法。其他可能性是 Bryan Jurish 针对DTA::CAB的启发式方法。[20]还可以使用 Bollmann 和 Domingo / Casacuberta 等人的机器学习应用程序。在这项工作中,无法说明哪种方法在哪种情况下能产生最佳结果。如有疑问,可以在算法和程序代码中改变相似度分析。当更改程序代码时,调整限制值也很重要,这将在后面的文本中变得清楚。
2.2.3 分类基础如果底层规则在算法中被形式化,这个过程就可以实现自动化。 (自动) 分类可以将一个对象分配到某个类,或者由于无法选择任何类而失败。是否分配到某个班级也可能是正确的,也可能是不正确的。这种二元观点产生了四种可能的组合(见表1)。 TP 和 TN 结果的增加被认为是可取的。然而,应该避免 FP 和 FN 结果。
分类正确 分类不正确
分类已完成 真正例 (TP) 假阳性(FP)
未进行分类 真阴性 (TN) 假阴性(FN)
表 1:基于 Fawcett 2006 的分类混淆矩阵。[Goldberg / Moeller 2022]
[ 15 ]通过结合各个状态的数量,可以评估分类的质量。这是必要的,因为 新西兰电报数据 高比例的命中通常伴随着许多不正确的结果 - 但是如果没有命中,那么没有命中是错误的。确定分类质量的一种方法是 F1 测量。[21]这用于实现找到的命中结果与正确命中结果之间的优化比率。这里,分类的命中率(R,召回率)和准确率(P,精确率)根据 F1 度量的公式相关联(参见公式 1)。
[ 16 ]公式1:F1=2*P*RP+R
[ 17 ]如果准确度和命中率在 F1 测量中具有同等权重,则任何其他权重也是可以想象的。准确率由公式2给出,命中率由公式3给出。
[ 18 ]公式2:P=|TP||TP|+|FP|公式3:R=|TP||TP|+|FN|
[ 19 ]与手动分类不同,手动分类需要预先确定分配的正确性,而自动执行的分类只能在事后才有可能 - 如果有的话。然而,分配给词条的每个额外的拼写变体都会改变该类的属性。由于未来的分类可以访问这些先前的信息,因此可以进行监督学习。