数据和数据集概述
数据和数据集概述
本说明提供了一些关于与 Schema.org 相关的各种”数据”和”数据集”概念的背景信息。
Schema.org 作为一个项目和术语集合,完全致力于数据。换句话说,它总是提供、表征、描述或编码某种形式的数据。Schema.org 定义了特定类型,如 Event、NewsArticle、Review、Person,以及表征和互连这些类型实例的属性。例如,alumni 属性将 Person 与 EducationalOrganization 链接。alumni 属性存在是为了提供人们是组织校友的信息;Volcano 存在是为了提供关于火山的信息,等等。然而,当我们提供信息的事物本身被视为(通常是一捆)数据时,有时会产生混淆。
Schema.org 本身还包含一些专用词汇,可用于发布、发现或集成不同种类数据的应用程序。正如 schema.org 定义词汇来帮助描述人、火山和公共厕所一样,它也可以用于描述数据。这种能力是对 schema.org 作为结构化数据模式集合的一般性质的补充,并补充了许多其他数据相关格式和标准。
特别是,schema.org 定义了用于提供数据集元数据的词汇,以及(提议的)用于描述聚合统计的词汇:
当描述打包数据的集合时,例如在科学、学术或政府”开放数据”存储库中发布的,Dataset 类型可以与 DataCatalog 一起使用,以指示整体集合,并使用 DataDownload 表示数据集的特定表示。与 Schema.org 的典型使用不同,这些”数据集”可以是任意格式。例如,它们可能包括存储在电子表格文件集合中的数据,或作为数字图像,或在专用科学、地理空间和工程文件格式中。这种多样性反映了现实世界数据的复杂性,但使用多样且往往不兼容的格式也使得集成它们编码的信息变得困难,例如用于统一”知识图谱”如 Wikidata 和 DataCommons.org。Schema.org 的 Dataset 词汇最初基于 DCAT,而 DCAT 又使用了 Dublin Core 和 FOAF 术语。
当聚合和集成描述个体实体集合(”群体”)的统计观察时,可以使用 StatisticalPopulation 和 Observation 类型。请参阅 提案 和 概述文档 以获取详细信息,并参阅 DataCommons.org 以获取此方法在大规模知识图谱中的应用。这种方法强调使用 schema.org 词汇来集成来自多个独立统计数据集的信息,通过使用 schema.org 和相关词汇来解释统计数据的内容。
举个具体例子,schema.org 中的 Volcano 类型对火山数据有用,但与使用 Dataset 类型描述关于火山的数据集合(例如 CSV 或 XML 格式)的方式不同。类似地,Population / Observation 类型可以用于表示火山”群体”的聚合统计。虽然 https://schema.org/Volcano 可用于直接提供关于特定火山的信息;https://schema.org/Dataset 和 https://schema.org/Observation 类型更直接地强调了数据级别的抽象。
其他相关工作包括 W3C 的 CSVW 和 RDF Data Cube 规范,以及 DSPL 2.0 规范。DSPL 2.0 将 Schema.org 用于每个数据集元数据与使用 CSV 文件表示代码列表、枚举和统计观察相结合。DSPL2 提供了数据集在其自身术语中的明确高保真表示,而不是将一切映射到 Schema.org。
这些技术都依次依赖于较低级别的标准,如 JSON-LD、RDFa、Microdata、XML、Unicode 等,并共享一种广泛的 RDF-like 方法来表示信息。还有来自 W3C 和其他地方的相关标准,致力于将事实数据从各种数据集提升到使用 Schema.org 等词汇的 RDF 语句中。例如,请参阅 R2RML(针对 SQL);GRDDL(针对通过 XSLT 的 XML);静态表格数据的 CSVW to RDF mappings,以及某些 JSON 数据的 JSON-LD 上下文机制。