谷歌结构化数据搜索和JSON-LD的作用

使用结构化数据进行搜索
结构化数据是以便于搜索引擎轻松阅读的方式设置的信息。一些示例包括XML站点地图中的XML标记和JSON-LD脚本中的模式词汇表。

基于对站点上的结构化数据中发现的爬行和索引事实来回答问题的搜索引擎与查看查询中使用的单词的搜索引擎的工作方式不同,并尝试返回包含与查询中的单词相同的单词的文档。查询; 希望这样的字符串匹配可能包含对信息需求的实际答案,这些需求首先启发了查询。使用结构化数据进行搜索的方式略有不同,如2017年Google专利的流程图所示:

在Schema,结构化数据和分散数据库(如万维网)中,我在Sergey Brin的一项专利中谈到了Dipre算法,正如我在帖子中描述的那样,谷歌的第一语义搜索发明于1999年获得专利。该专利和算法描述了如何抓取网络以收集关于特定事实的模式和关系信息。在那种情况下,关于书籍。在关于结构化数据的谷歌专利中,我们看到谷歌如何寻找在半结构化数据(如JSON-LD)中设置的事实信息,以便能够回答关于事实的查询,例如,“欧内斯特海明威出版于1948-1952。

这个较新的专利告诉我们,它可能以这种方式解决这本书的搜索:

具体地,对于与给定的识别的模式相关联的每个编码数据项,系统搜索由模式识别的编码数据项中的位置,作为存储指定密钥的值,以识别存储满足指定密钥的值的编码数据项。查询中指定的要求。例如,如果查询是针对“作者”键具有值“Ernest Hemingway”并且对于“年发布”键具有“1948-1952”范围内的值的半结构化数据项,系统可以识别编码数据项,该编码数据项存储在与编码数据项相关联的模式中标识的位置中对应于“欧内斯特海明威”的值,作为存储“作者”密钥的值并且存储范围中的值“ 1948-1952“在与编码数据项相关联的模式中标识的位置,用于存储”年发布“键的值。因此,系统可以有效地识别满足查询的编码数据项,即,不搜索不包括在接收到的查询中指定的每个键的值的编码数据项,并且不搜索未被识别为存储的编码数据项中的位置。指定键的值。

结构化数据和JSON-LD
有趣的是,谷歌推出了一项关于搜索半结构化数据的专利,该专利主要关注JSON-LD的使用。我们看到他们在结构化数据简介的Google Developer页面上提供了一个JSON示例

正如它在该页面上告诉我们的那样:

本文档描述了对Google搜索具有特殊含义的结构化数据所需,推荐或可选的字段。大多数搜索结构化数据都使用schema.org词汇表,但您应该依赖developers.google.com上的文档作为Google搜索行为的权威,而不是schema.org文档。即使按照schema.org的要求进行标记,Google搜索也不要求此处未描述的属性或对象。

然后,该页面将我们指向结构化数据测试工具,用于准备用于结构化数据的页面。它还告诉我们,为了在结构化数据设置完成后进行检查,Google Search Console中的结构化数据报告可能会有所帮助,这也是我在进行网站审核时通常会看到的。

互联网上已经有很多的添加到它JSON-LD的例子,这是有趣在它看到这个专利的焦点。正如他们在专利中告诉我们的那样,似乎他们喜欢它:

半结构化数据是自描述数据,不符合静态预定义格式。例如,一种半结构化数据格式是JavaScript Object Notation(JSON)。JSON数据项通常包括一个或多个JSON对象,即一个或多个无序的键/值对集合。另一个示例半结构化数据格式是可扩展标记语言(XML)。XML数据项通常包括定义一个或多个键的值的一个或多个XML元素。

与HTML Sitemaps相比,我使用了XML站点地图如何是机器可读的类比,这就是JSON-LD在网站上以机器可读方式显示事实的方式,而不是HTML格式的内容。正如该专利告诉我们的是这项专利的目的:

通常,本说明书描述了用于从文档集合中提取事实的技术。

该专利讨论了可能在站点上的模式,可以搜索的键/值对,以及有关在站点上搜索半结构化数据的详细信息:

该方面还包括接收对半结构化数据项的查询,其中该查询指定对一个或多个键的值的要求; 识别来自多个模式的模式,该模式识别与一个或多个密钥中的每个密钥相对应的值的位置; 对于每个识别的模式,搜索与模式相关联的编码数据项以识别满足查询的编码数据项; 并提供识别来自满足查询的编码数据项的值的数据以响应查询。搜索与模式相关联的编码数据项包括:搜索与模式相关联的每个编码数据项。

该专利提供了使用JSON-LD在网站上提供机器可读事实的详细信息,可在此处找到:

  • 存储半结构化数据

  • 发明人:Martin Probst

  • 受让人:Google Inc.

  • 美国专利:9,754,048

  • 授权:2017年9月5日

  • 提交日期:2014年10月6日

抽象

方法,系统和装置,包括在计算机存储介质上编码的计算机程序,用于存储半结构化数据。其中一种方法包括维护多个模式; 接收第一个半结构化数据项; 确定第一个半结构化数据项与多个模式中的任何模式都不匹配; 并且响应于确定第一半结构化数据项与多个模式中的任何模式不匹配:生成新模式,以第一数据格式编码第一半结构化数据项以生成第一新编码数据项根据新模式,将第一新编码数据项存储在数据项存储库中,并将第一新编码数据项与新模式相关联。

远离结构化数据使用
通过使用结构化数据(如JSON-LD格式的模式词汇表),您可以确保在键/值对中提供精确的事实,从而提供站点页面上基于HTML的内容的替代方法。将Google添加到网站时,请确保遵循Google提供的结构化数据常规指南。该页面告诉我们,不符合指南的网页可能排名不高,或者可能不符合Google SERP中为其显示的丰富结果。

如果您要为Google优化网站,它也有助于为Bing优化相同的网站,并且很高兴看到Bing似乎也喜欢JSON-LD。Bing需要一段时间才能做到这一点(参见Aaron Bradley的帖子,关于JSON-LD的Bing公开信。)看来Bing已经听了一点,在部署之后添加了一些检查JSON-LD的能力:Bing在Bing网站管理员工具中宣布Bing AMP查看器和JSON-LD支持。Bing Markup Validator对JSON-LD没有帮助,但Bing网站管理员工具现在可以帮助调试JSON-LD。我喜欢自己使用这个结构化数据Linter。

相关文章