X

Qu’est-ce que le Knowledge Graph de Google ?


Il ne fait aucun doute que le référencement sémantique est l’avenir du référencement.

La raison?

À mesure que les moteurs de recherche évoluent vers la recherche sémantique, votre stratégie de référencement devrait évoluer avec eux.

Le problème est que la barrière à l’entrée est élevée. En d’autres termes, pour faire du référencement sémantique, vous devez avoir une compréhension de base du fonctionnement de la recherche sémantique.

Malheureusement, dans l’état actuel des choses, si vous effectuez une recherche sur Google pour des ressources simples et faciles à comprendre pour le profane, vous vous retrouverez à vous gratter la tête.

Pour faire face à cela, j’ai essayé de créer des ressources SEO sémantiques que tout le monde peut comprendre.

Ce billet de blog et tous les autres de cette série représentent ma propre quête pour comprendre le référencement sémantique. Je dois reconnaître que ce message provient principalement d’informations glanées dans l’ebook Entity Oriented Search de Krisztian Balog.

Dans ce post, je vais traiter la question:

Qu’est-ce que le Knowledge Graph de Google ?

À un niveau de 30 000 pieds, le Knowledge Graph de Google est une base de connaissances d’entités structurées en un graphique appelé Knowledge Graph.

Au cas où vous n’auriez aucune idée de ce que signifie cette déclaration, n’ayez crainte, je vais essayer de la distinguer et d’expliquer chaque segment un par un. Je vais ensuite essayer de reconstituer le tout en une phrase cohérente qui sera compréhensible pour le profane.

Je me considère certainement comme un profane et cela signifie que j’espère utiliser un langage simple à comprendre.

Il est intéressant de noter que le Knowledge Graph de Google interagit directement avec les SERP. L’endroit le plus évident pour voir cela est les panneaux de connaissances de Google. Les panneaux de connaissances sont un moyen pour l’utilisateur final d’interagir avec les informations d’entité dans le Knowledge Graph.

Pour commencer à comprendre les Knowledge Graphs de Google, nous devons d’abord comprendre pourquoi les moteurs de recherche évoluent vers la recherche sémantique.


par GIPHY

Recherche sémantique

En termes simples, un moteur de recherche sémantique est conçu pour interagir avec des personnes utilisant un langage qu’une personne utiliserait.

Pourquoi les moteurs de recherche font-ils cela ?

Eh bien, si vous êtes dans le coin depuis un certain temps, vous vous souviendrez peut-être de ce qu’était la saisie d’une requête dans un moteur de recherche il y a quinze ou vingt ans. Si vous vous en souvenez, c’était très inexact. Vous essayez de trouver les bons mots à taper dans le moteur de recherche et vous devez ensuite creuser pour trouver la ressource que vous recherchez.

La raison en est que les moteurs de recherche à l’époque n’avaient aucun moyen de comprendre votre requête. Ils ne pouvaient pas non plus comprendre quelle était la signification du contenu en ligne afin de répondre à votre requête.

Comparez cela avec votre expérience d’utilisation des moteurs de recherche aujourd’hui. Avez-vous déjà remarqué que Google peut vous apporter presque intuitivement du contenu non seulement pertinent pour votre requête, mais peut souvent répondre directement à votre requête dans les pages de résultats ?

Alors, comment Google fait-il cela ?

Traitement du langage naturel (TAL).

Le traitement du langage naturel de Google est sa capacité à “comprendre” et à interagir avec le langage humain naturel.

Et…

Afin de réaliser le traitement du langage naturel, ils ont besoin de bases de données d’informations lisibles par machine structurées de manière à imiter la façon dont les humains organisent les informations.

En ayant les informations structurées de cette manière, les moteurs de recherche sont capables de « comprendre » la requête d’un utilisateur et d’apporter des ressources pertinentes pour répondre à la requête en « comprenant » le contenu en ligne.

Bien que les machines ne comprennent pas réellement le langage, elles sont capables d’imiter la compréhension.

Maintenant, pour organiser les informations d’une manière qui permette aux machines de le faire, elles doivent diviser les idées et les informations en entités.

D’accord, qu’est-ce qu’une entité ?

Qu’est-ce qu’une entité Google ?

Une entité Google est définie par Google comme « une chose ou un concept singulier, unique, bien défini et distinctif ».

En termes simples, les moteurs de recherche ont des bases de données d’entités et ces bases de données incluent des informations sur les entités telles que le nom, le type, les attributs et la manière dont les entités sont liées à d’autres entités.

Comme je l’ai mentionné ci-dessus, la raison pour laquelle les moteurs de recherche conservent des bases de données d’entités est qu’ils peuvent organiser les informations dans une structure qui imite la façon dont les gens structurent les informations.

Les entités sont les plus petits blocs de construction nécessaires pour organiser les informations de cette manière.

Bon, maintenant que nous avons une compréhension de base des entités, passons aux graphes de connaissances.

Comprendre le Knowledge Graph de Google

Le Knowledge Graph de Google est composé de différents composants. La raison en est que pour que les moteurs de recherche répondent aux requêtes des utilisateurs, ils doivent :

  • Avoir une source d’information fiable
  • Structurez ces informations de manière à permettre au moteur de recherche de répondre aux requêtes

Cela nous amène à :

  • Référentiels de connaissances (KR)
  • Bases de connaissances (KB) souvent appelées graphes de connaissances (KG)

Plongeons dans les deux.

Référentiel de connaissances (KR)

Les référentiels de connaissances sont des sources d’informations que les moteurs de recherche utilisent pour créer des bases de connaissances. Ce sont des catalogues d’entités qui organisent les entités en types d’entités.

Ils peuvent éventuellement inclure des descriptions des entités ainsi que des propriétés d’entité. Ces référentiels de connaissances existent sous des formats structurés ou semi-structurés.

L’exemple parfait d’un référentiel de connaissances est Wikipedia. Chaque article de Wikipédia décrit une entité spécifique, ce qui en fait un catalogue d’entités.

De plus, chaque article est affecté à des catégories et nous pouvons afficher ces catégories comme des types d’entités.

Ainsi, dans la capture d’écran ci-dessus, vous pouvez voir les catégories de l’entité “traitement du langage naturel”. Comme vous pouvez le constater, le traitement du langage naturel est une catégorie d’entités. De plus, c’est une sous-catégorie de la linguistique computationnelle. La linguistique computationnelle est une sous-catégorie de la reconnaissance vocale, etc.

Les articles de Wikipédia montrent également les relations entre les entités en ajoutant des hyperliens entre les articles. Ils incluent également des informations sur les attributs et les relations d’une entité.

Toutes ces informations sont dans un format semi-structuré.

Référentiels de connaissances semi-structurés

Les données semi-structurées font simplement référence à des informations qui ont une structure telle que le balisage HTML, y compris les en-têtes, les paragraphes et les tableaux.

En termes simples, Wikipédia est un référentiel de connaissances semi-structuré.

Référentiels de connaissances structurés

Les données structurées (ou bases de données relationnelles), quant à elles, font simplement référence à des données qui ont une structure ou un schéma prédéterminé. Les données structurées sont généralement organisées en tables. Cela signifie que chaque champ spécifié par le schéma doit recevoir une valeur (autorisée).

Une fois que les moteurs de recherche disposent de ces informations structurées ou semi-structurées, elles ne sont toujours pas ordonnées de manière à ce que les moteurs de recherche puissent les utiliser pour la recherche sémantique.

L’étape suivante concerne les bases de connaissances (ou graphes de connaissances).

Bases de connaissances ou graphes de connaissances

Il est important de comprendre que pour que les logiciels d’IA effectuent des tâches NLP complexes, telles que la compréhension des requêtes des utilisateurs, ils ont besoin que les données soient structurées d’une manière spécifique.

En d’autres termes, les données structurées sous forme de tableau ou les données semi-structurées comme les articles de blog de Wikipedia ne donnent pas aux systèmes d’IA ce dont ils ont besoin pour traiter le langage humain.

Au lieu de cela, les informations doivent être structurées de la même manière que les gens organisent les informations dans leur esprit.

Pour ce faire, les bases de connaissances doivent prendre les informations des référentiels de connaissances et les organiser en assertions sur le monde. Ces assertions décrivent des entités et comment elles sont liées les unes aux autres. Je décrirai cela plus en détail plus tard.

Pour ce faire, les moteurs de recherche ont besoin d’un modèle de données appelé Resource Description Framework (RDF). RDF fournit un ensemble standard d’instructions décrivant des entités ou des ressources.

Format de description de ressource (RDF)

RDF est un langage conçu pour décrire des entités et leurs relations. Il est composé de ressources.

Une ressource pourrait faire référence à :

  • Une entité ou un objet
  • Un type d’entité ou une classe
  • Relations d’entité

Ces ressources sont organisées en déclarations RDF appelées triplets sémantiques.

Les triplets sémantiques sont un ensemble de trois entités disposées en une déclaration sous la forme sujet-prédicat-objet. (Représentée sous forme de graphe, une déclaration RDF est représentée par un nœud pour le sujet, une arête allant du sujet à l’objet, et un nœud pour l’objet.)

Le sujet et le prédicat sont représentés par leur propre identifiant numérique appelé URI. L’objet de l’instruction peut soit être représenté par un URI, soit être une valeur littérale.

Pour ceux d’entre vous qui sont des apprenants visuels, voici une illustration :

Le sujet d’un triplet est une entité. Le prédicat peut être un type d’entité ou une relation. Par exemple, nationalité, date de naissance, nom, etc. L’objet est soit une autre entité, soit une valeur telle qu’une chaîne représentant un nom ou un nombre représentant une date.

Ainsi, par exemple, regardons la première phrase de l’article de Wikipedia sur Mike Tyson :

Michel Gérard Tyson (né le 30 juin 1966) est un ancien boxeur professionnel américain qui a concouru de 1985 à 2005.

Décomposons cela visuellement.

Dans l’illustration ci-dessus, j’ai représenté la première phrase comme un triplet.

Le sujet est l’entité ‘Mike Tyson’, le prédicat est ‘date de naissance’ et ‘1966-06-30’ est l’objet. J’ai mis un rectangle autour de Mike Tyson pour représenter que Mike Tyson est une entité. 1966-06-30 d’autre part n’est pas une entité mais plutôt une valeur donc je l’ai inclus entre guillemets.

Voici une représentation visuelle de la phrase entière :

En allant plus loin, toute entité qui existe dans l’exemple ci-dessus peut être considérée comme le sujet dans un ensemble différent de triplets, résultant en un vaste réseau complexe d’entités et de relations.


par GIPHY

Le (loin d’être) dernier mot sur les graphes de connaissances

Vous devriez maintenant avoir une compréhension de base de ce qu’est un graphe de connaissances. De plus, vous devez avoir une compréhension profane des informations stockées dans les graphes de connaissances et vous devez également comprendre d’où elles viennent.

Bien qu’il n’y ait pas de stratégies exploitables dans cet article, je pense que cette connaissance est une base de base pour comprendre le référencement sémantique qui vous aidera à progresser sur la voie de la célébrité SEO.

Et la compréhension mène à des informations exploitables.

A propos de l’auteur

Darrell est spécialiste du marketing de contenu chez Rank Ranger. Alors qu’il travaillait comme responsable SEO dans une petite agence de marketing, Darrell a découvert son amour du marketing et du SEO.