3.4 主题标记
[ 19 ]通过分配通用术语(标签),可以简化主题词列表的解释。 [93]重要的是,这个手动过程包括对语料库的更深入的理解。对于每个主题,使用 20 个最可能的单词以及 100 篇文章的标题和 20 篇文章的全文。作为全文审查的一部分,还研究了报道形式(例如新闻文章、报告、评论、社论、观点文章、专栏、访谈、肖像、报告、分析)。为每个主题选择的 20 篇文章是那些被分配了属于相应主题的最高概率的文章。因此,这些是该主题最具代表性的文章。这一过程伴随着多次讨论,其中考虑到了有关气候讨论主题和层面的专业文献。最终的主题标记与 Hase 等人[94]关于气候变化的主题标记非常接近, 但也存在一些差异,因为这里使用的气候保护数据集很少提及气候变化的危险(物理维度),而是侧重于政治、经济和社会维度。据此,主题被进一步划分为这三类。这里也采用了类似的程序(查看 100 个标题、20 个连续文本、20 个主题术语和几轮讨论)。[95]总的来说,应该注意到,在标记过程中主题界限总是会变得模糊,因此这种手动分配只对应于一种倾向或趋势,而不是排他性。话题的标签有时会引起争议。虽然 Shadrova [96]批评了固有的主观性,但 Boyd-Graber 等人的主题标签。[97]与未命名的单词列表相比,有助于更好地理解所分析的语料库。因此,本文遵循 Boyd-Graber 等人的论点,以便以清晰的方式呈现结果。
3.5 情绪分析
[ 20 ]情感分析描述了主要用于确定文本片段的极性(正面、中性、负面)的摩洛哥电报数据 各种方法。另外,它也可以理解为将一段文本详细分解成不同的基本情绪。[98]在自动文本分析领域,情感分析一般分为两种应用方法:使用现成的词典或同义词库进行分析或使用机器学习方法。[99]
[ 21 ]大多数情况下,使用基于词典的方法,但这明显较低。尽管机器学习方法通常可以产生更准确的结果,但它们的使用频率较低,因为大多数语言所需的训练数据集很稀疏,并且如果有的话,也是高度领域特定性的。[100]然而,近年来,Transformer 模型[101] 与机器学习架构的集成不断增加,以开发大规模语言模型,例如 Transformer 语言。 B.来自 Transformer 的双向编码器表示(BERT)[102]。这些 BERT 模型的一大优势是它们已经在数百万个数据集上进行了训练,可以用于下一句预测等一般 NLP 任务。这样就可以生成特定的(即与上下文相关的表达)和一般的句子嵌入[103] ,然后可以使用小得多的数据集针对特定主题和话题的 NLP 任务和领域进行优化。在本文中,›german-news-sentiment-bert‹ 模型[104]用于研究有关气候保护的文章的极性。为了确保计算出的极性实际上仅反映气候保护上下文,只检查了包含字符串›气候保护‹的句子以及前后两个句子。由于大多数文章并非专门涉及气候保护,因此极性的确定会受到这些额外讨论主题的影响,并且不会提供关于文章中对气候保护的正面或负面描述的任何有意义的信息。
4.结果
[ 22 ]在 2002 年至 2021 年期间,所检查的报纸发表了以气候保护为主要主题的文章,占所有文章的 0.4%(见表2),2021 年达到峰值 1.52%。《标准报》和《人物报道》的报道尤其深入(0.7%),而《皇冠报》的报道最少(0.2%)。