Page 1 of 1

用方式也各有不同但

Posted: Thu Feb 06, 2025 7:06 am
by Bappy11
无花果。 1:112 部卡尔德隆喜剧的 Ward.D2 聚类。 [莱曼 2022]
无花果。 1:112 部卡尔德隆喜剧的 Ward.D2 聚类。 [莱曼 2022]
[ 16 ]从左到右阅读,第一个集群代表一个纯悲剧集群,其中包括 29 部戏剧;其中 10 部已被归类为悲剧。左侧第三个集群描绘了一个纯喜剧集群;这里包括 22 部戏剧,其中 10 部已被归类为悲剧。另外两个集群必须被描述为未定义或混合集群,因为它们要么只包含 1 部喜剧(左侧第二个集群,包含 39 部戏剧),因此不能被描述为纯喜剧,要么包含 4 部喜剧和 5 部悲剧(右侧集群,包含 22 部戏剧)。这两个集群加起来包含了超过一半的戏剧,即 61 部作品。我们得出结论,就主要研究问题而言,这种方法似乎并不是特别有效,因为在之前标记的 30 部戏剧中,只有 20 部(或 67%)被明确分配,而其余 10 部喜剧和悲剧则相互出现在集群中。然而,文档嵌入的维数仍然相对较高,使得故障分析变得具有挑战性。

[ 17 ]第二个过程的目标是创建一个更容易解释的低维表示,以便更深入地了解这两种类型的分布。首先,只保留至少出现在所有文档的 80%(即至少 90 部戏剧)中的术语;换句话说,稀疏度限制为 20%。这样可以将术语数量减少到更紧凑的 496 个。再次建立基于频率的单词文档矩阵并进行归一化,其中每个戏剧中剩余术语的频率除以文本中所有单词的频率总和。最后,基于欧几里得距离建立一个距离矩阵,然后再次使用 Ward.D2 距离算法进行聚类。

图 2:112 部 Calderónian Comedias 的 Ward.D2 聚类。基于 20% 稀疏度的欧几里得距离。[Lehmann 2022]
图 2:112 部 Calderónian Comedias 的 Ward.D2 聚类。基于 20% 稀疏度的欧几里得距离。[Lehmann 2022]
[ 18 ]树状图显示了三个聚类:左侧的第一个聚类中出现了所有 15 部喜剧和 16 部其他戏剧。右侧的聚类包含 14 部悲剧,同样,还有 33 部未知分类的戏剧。中间的聚类是混合的;它包含 1 部悲剧(T4:El mayor monstruo del mundo)和另外 33 部未知分类的戏剧。通过这个仅处理 496 个词的过程,30 部已分类的戏剧中有 29 部(97%)被正确分配。[29]

[ 19 ]这两种自动程序都基于词频来减少基本矩阵,从而在悲剧和喜剧之间建立了一个过渡区。这一观察结果向我们提出了一个问题:从分布语义学的角度来看,将“悲剧”和“喜剧”等分类视为两极是否更合适,两极之间逐渐出现差异,显示出在应用词汇选择方面产生的重叠。就卡尔德隆戏剧而言,这似乎非常合理,因为“荣誉”和“权力”等主题既可以包含在喜剧情节中,也可以包含在著名的荣誉悲剧情节中。

[ 20 ]喜剧也可以用轻松、娱乐的方式呈现严肃的话题。例如,可以在神话剧的框架内间接暗示王室之间的权力斗争;当时的宫廷观众很容易理解这个寓言。[30]

[ 21 ]简单的文档嵌入方法(如我们迄今为止观察到的那些)可能存在的根本性批评之一是完全缺乏语言结构。为此,我们决定对所有戏剧进行词性标注,仅包括语料库中每部戏剧的动词、名词和形容词进行聚类。[31]因此,为了测试第三个程序,我们建立了第二个语料库,其中每个戏剧文本仅包含基本形式的动词、名词和形容词。所有专有名词再次从为此目的创建的矩阵中过滤掉(它们 阿曼电报数据 被错误地识别为形容词),随后根据余弦相似度的非标准化频率进行计算。这个相似度矩阵被转换为距离矩阵,并再次用 Ward.D2 算法进行聚类。结果以树状图表示。

图 3:112 部卡尔德隆喜剧的 Ward.D2 聚类。基于动词、名词和形容词的余弦相似度。[Lehmann 2022]
图 3:112 部卡尔德隆喜剧的 Ward.D2 聚类。基于动词、名词和形容词的余弦相似度。[Lehmann 2022]
[ 22 ]左侧的第一个聚类可能被认定为喜剧聚类,包含 14 部喜剧、5 部悲剧(T1:A secreto agravio, secreta venganza;T2:El alcalde de Zalamea;T5:El médico de su honra;[32] T6:El pintor de su deshonra;T13:Las tres justicias en una)和 18 部分类不明的戏剧。右侧的聚类主要为悲剧聚类,因为它包含 10 部悲剧和 49 部其他戏剧,但也有 1 部喜剧(C3:El encanto sin encanto)。在这两类中间是一个未定义的聚类,包含 15 部标有“测试”的戏剧。对于迄今为止被认定为悲剧和喜剧的戏剧,80% 的戏剧都被正确聚类;不过,只有当大多数先前识别出的戏剧都能够识别出集群时,这一结果才适用。[33]

[ 23 ]考虑到之前测试过的方法,似乎建议关注每个有意义的术语,从而区分类别。我们尝试的第四种方法基于 tf-idf 统计数据,因此是文本挖掘中常用的关联度量的基础,通过此方法可以评估术语在文档或作品中的重要性。使用 tf-idf 统计数据,可以计算每个文档中每个术语的权重;将词频( tf ) 乘以逆文档频率( idf )。后者不取决于单个文档,而是取决于语料库中所有文档的总数。这样,​​tf-idf 统计数据会考虑语料库中频繁出现的单词的相对重要性,以确定该术语与所研究语料库中的文档的相关性。再次,删除专有名词,计算向量的余弦相似度,将相似度矩阵转换为距离矩阵,并使用 Ward.D2 算法进行聚类。结果以树状图形式呈现。