Le lancement de GA4 a été mouvementé. GA4 représente un changement significatif par rapport à la version précédente de Google Analytics, Universal Analytics. Il introduit de nouvelles fonctionnalités, une modélisation des données et des rapports qui nécessitent une courbe d'apprentissage significative pour les utilisateurs. De plus, certains utilisateurs ont signalé des problèmes techniques avec GA4, tels que des écarts de données, un suivi inexact et des retards de traitement des données. Ces problèmes ont causé de la frustration et de l'inquiétude parmi les utilisateurs, qui comptent sur des données précises pour prendre des décisions éclairées. L'un de ces problèmes est la cardinalité.
Qu’est ce que la cardinalité?
La cardinalité est le nombre de valeurs uniques attribuées à une dimension. La modélisation des données de GA4 est basée sur un modèle de données événementiel qui attribue un identifiant unique à chaque événement envoyé à GA4. Si un champ de données ou une colonne particulière a une cardinalité élevée (c'est-à-dire un grand nombre de valeurs uniques), cela peut entraîner un grand nombre d'identifiants d'événements uniques, ce qui peut causer des retards dans le traitement des données et entraîner des écarts de données.
Pour surmonter ces dimensions à haute cardinalité, Google regroupe les dimensions dans la ligne (autre). Cette ligne est redoutée depuis un certain temps par les marketeurs et les analystes de données. Par exemple, si une propriété GA4 a une cardinalité élevée pour le champ de données "Nom de l'article", qui contient des articles uniques sur un site de e-commerce, cela peut entraîner la génération d'un grand nombre d'identifiants d'événements uniques.
Dans l'exemple ci-dessous, vous pouvez voir à quoi cela ressemble en pratique : le nombre d'identifiants d'événements uniques générés pour les événements Affichage d'articles et Ajout d'articles au panier est trop élevé pour que GA4 puisse les traiter, ce qui entraîne la compression de certaines valeurs de la dimension Nom de l'article dans la ligne (autre). Ceci n'est pas optimal pour des rapports précis.
La dimension nom de l’article est compressée dans la ligne (other) à cause d’un nombre trop important d’ID d'événements uniques.Quelles sont les solutions?
Étant donné l'indignation suscitée par ce problème de cardinalité, il est clair que la compression des résultats en une seule ligne est l'un des plus grands problèmes auxquels GA4 est confronté. Jusqu'à présent, Google ne semble pas avoir trouvé de solution adéquate pour traiter la cardinalité élevée dans les rapports standard. Avant de chercher une solution pour la cardinalité, examinons les 4 types de rapport clés de GA4 :
1. Rapport standard: GA4 dispose de plusieurs rapports standard accessibles depuis le menu de navigation situé à gauche de l'interface. Ces rapports comprennent Acquisition, Engagement, Monétisation, Rétention, Démographie et Technologie.
Ce sont généralement les rapports soumis à la cardinalité. Si vous cherchez à surmonter spécifiquement la cardinalité, d'autres types de rapport sont disponibles :
2. Explorations: Une exploration peut être créée directement à partir des rapports standard en ouvrant l'icône de qualité des données et en cliquant sur Créer une exploration.
Meta: Créer un rapport d’exploration depuis la section rapport de GA4.
Créer un rapport d’exploration depuis la section rapport de GA4.Cette option crée une exploration avec la même requête appliquée au taux d'échantillonnage le plus bas. En effet, dans les explorations, l'échantillonnage des données peut apparaître, ce qui nous amène à l'un des problèmes fondamentaux que nous avions dans Universal Analytics.
Meta: Echantillonnage de données dans une Exploration.
3. API: Vous pouvez bien sûr choisir d'envoyer vos données vers une solution de dashboarding comme Looker Studio. Cependant, l'envoi de données via l'API ne semble pas être la meilleure solution pour surmonter la cardinalité, car vos données pourraient être bloquées par une limite d'utilisation de l'API Google Analytics. Supermetrics a écrit un article intéressant sur la façon de surmonter cela.
Il semble donc que bien que les explorations et l'exportation de vos données via l'API Google Analytics puissent résoudre vos problèmes de cardinalité, ils n’offrent pas une solution adaptée à l'aspect fondamental de tout outil d'analyse - obtenir des données précises qui permettent aux utilisateurs de prendre des décisions éclairées.
Cela nous amène à la dernière surface de reporting que GA4 a à offrir, sans avoir à passer à une licence 360:
4. BigQuery: Le lien de votre propriété GA4 à l'export BigQuery et la demande des mêmes données dans BigQuery semble être la solution la plus durable pour éviter la cardinalité jusqu'à présent. Les données GA4 de BigQuery ne sont pas affectées par l'échantillonnage des données et la cardinalité, car les données sont stockées de manière différente. Elles sont stockées sous forme brute, ce qui signifie que chaque événement individuel est enregistré en tant qu’enregistrement distinct, plutôt que d'être agrégé dans des tables prédéfinies.
En conclusion, bien que GA4 soit un outil gratuit, il est accompagné de limites de traitement des données qui peuvent entraver votre capacité à analyser vos données de la manière que vous souhaitez. Pour obtenir un ensemble de données non échantillonnées sans limites de cardinalité, vous devrez peut-être envisager d'utiliser un entrepôt de données cloud comme BigQuery ou d'investir dans une licence 360, qui peuvent tous deux entraîner des coûts supplémentaires.