Mars 2020
Google utilise des algorithmes de traitement du langage naturel (NLP) pour convertir les pages Web en sujets et concepts compréhensibles par les machines. En utilisant cette approche, nous avons examiné comment Google comprend les contenus du secteur Santé.
InLinks a analysé le contenu des 10 premiers résultats de recherche pour le mot-clé diabete gestationnel (marché FR) et a comparé les entités nommées* reconnues par l'API NLP de Google avec celles reconnues par Inlinks, afin de découvrir les lacunes de Google dans cette industrie.
Les résultats montrent que 12.8% des entités contenues dans les pages de résultats du secteur Santé ont été correctement identifiées par Google.
Ce chiffre est à comparer à la moyenne de 24% pour l'ensemble des secteurs industriels analysés.
Les différents secteurs ont tendance à être analysés avec un degré de précision différent par les moteurs de recherche. Cela découle de deux défis principaux.
Secteur: Santé | Analyse Google | Analyse InLinks |
---|---|---|
Nb. moyen de mots par page | 916 | |
Nb moyen d'entités par page | 3.6 | 27.9 |
Benchmark - Nb moyen d'entités par page (tous secteurs) | 7.5 | 31.2 |
Types d'entités détectées: | ||
- Personnes | 1 | 0 |
- Organisations | 6 | 4 |
- Villes et zone géo. | 9 | 3 |
- Concepts | 6 | 108 |
Densité sémantique | 3.9 |
Pour le mot-clé diabete gestationnel, l'API de recherche de Google a renvoyé les URL des sites suivants:
#eurekasante.vidal, #sante.lefigaro, #ameli, #diabete, #parents, #passeportsante.net, #topsante
Les textes de chaque page sont ensuite envoyés à l'API NLP de Google, afin de déterminer quelles entités sont identifiées par le moteur de recherche. Ces entités sont importantes pour la recherche puisque Google est alors en mesure de les relier à son Knowledge Graph pour alimenter ses services, notamment Google Discover, Google search, Voice Search et Google News. (Bien qu'une identification correcte ne garantisse pas l'inclusion dans ces résultats)
Voici tout d'abord la synthèse des résultats renvoyés par Google
On s'aperçoit dans les résultats ci-dessus que l'entité Type 1 diabetes a été catégorisée comme zone gégraphique, alors qu'elle devrait l'être comme concept. Ce type d'erreur est assez fréquent chez Google.
Non seulement l'entité principale Diabetes mellitus n'a pas été détectée, mais l'autre entité importante à savoir Pregnancy (grossesse), non plus. Or, c'est à priori la détection de cette dernière qui pourrait permettre une diffusion assez large sur Google Discover, auprès d'un public s'intéressant à ce sujet.
En connaissant à la fois les faiblesses de Google en terme de détection d'entités, ainsi que les types de contenus les mieux compris par le moteur de recherche, les entreprises du secteur peuvent rédiger un contenu plus clair facilitant la compréhension de Google.
Dans le cas présent, la page la mieux comprise par Google est:
https://www.passeportsante.net/fr/Maux/Problemes/Fiche.aspx?doc=diabete_gestationnel_pm
Pour laquelle les entités suivantes ont été détectées: Type 1 diabetes, Canada, HONcode,
Une autre option consiste à énoncer explicitement ces concepts à l'aide de Schema.org, afin que les algorithmes de Google en tiennent compte.
Pour cela, on peut utiliser Schema.org/WebPage et les propriétés "about" et "mentions" pour les concepts importants tels que: Complication (medicine), Childbirth, Pregnancy, Diabetes mellitus, Blood, Blood sugar, Insulin, Urine, Therapy, Hypoglycemia.
© 2019-2020 - InLinks.net - About us - Terms of Use - Privacy Policy