维基百科和维基数据等知识数据库的问题

Data used to track, manage, and optimize resources.
Post Reply
Reddi1
Posts: 290
Joined: Thu Dec 26, 2024 3:08 am

维基百科和维基数据等知识数据库的问题

Post by Reddi1 »

由于 Wikidata 和 Wikipedia 仅捕获了所有现实世界实体的一小部分,因此对于 Google 来说,最困难的任务是从上述网站以外的其他网站提取有关实体和实体类型的信息。大多数网站和文档的结构都不同,通常没有统一的结构。因此,谷歌在进一步扩展知识图谱方面还有很大的任务要做。

通常会检查和准备来自手动维护的数据源(例如 Wikipedia 或 Wikidata)的结构化和半结构化信息,以便 Google 可以轻松提取它并将其添加到知识图谱中。但这些网站和数据库也并非完美无缺。

手动维护的数据库和半结构化网站(如维基百科)的问题在于缺乏数据的完整性、有效性和及时性。

完整性是指数据库中记录的实体及其属性和相关实体类型。
有效性是指记录的属性、陈述或事实的正确性
时效性是指记录实体的属性
有效性和完整性尤其是互相冲突的。如果谷歌仅仅依赖维基百科,那么由于勤 建筑师数据库 奋的维基百科人的严格审查,信息的有效性会非常高。当谈到及时性时,事情就变得更加困难,而当谈到完整性时,信息根本就不够,因为维基百科只代表了世界知识的一小部分。

为了实现近乎完整的目标,Google必须能够从网站中提取非结构化数据,同时确保有效性和及时性。例如,Google 新闻中的文章是一个非常有趣的信息来源,可以确保知识图谱中已记录实体的及时性。

谷歌通过数万亿的索引内容和文档获取了大量的知识财富。这些可以是新闻网站、博客、杂志、评论、商店、词汇表、词典……

然而,并不是每个信息来源都足够有效,可以作为信息来源使用。因此,第一步是确定正确的域作为源。

通过识别知识图谱中已存储的实体的提及,可以在第一步中识别出与实体相关的文档。

可以将在命名实体附近同时出现的术语与它们联系起来。由此,可以从内容中提取与主要实体相关的属性以及其他实体,并将其存储在相应的实体配置文件中。文本中术语和实体的接近度以及主实体-属性对或主实体-次要实体对出现的频率既可以用作验证,也可以用作权重。

这使得 Google 能够不断用新信息丰富知识图谱中的实体。

下面,我研究了 Google Patents 和其他来源,以找到确保完整性(召回率)、有效性和及时性的方法。
Post Reply