On me pose souvent la question suivante sur Google Analytics 4 (GA4) : à quoi correspond le point d’exclamation orange en haut de mon rapport ? Que signifie “Seuil appliqué” alors que mon rapport est “non échantillonné”. En effet, juste au-dessus, vous pouvez lire que vos données sont “Non échantillonnées rapport”.
Le but de cet article est de vous initier au terme de seuil de données dans Google Analytics 4 et de vous aider à l’éviter !
Sommaire :
Les seuils observés dans Google Analytics 4 résultent de l'utilisation d'une caractéristique connue sous le nom de Google Signals. Bien que cette fonctionnalité soit initialement désactivée, son activation peut entraîner des comportements inhabituels.
Google Signals est une fonctionnalité très puissante de Google. Alors pourquoi et quand faut-il l’activer sachant qu’elle est responsable des seuils dans vos rapports ?
Je vous invite à lire la documentation complète de Google. Si vous voulez aller vite, voici un récapitulatif qui suit 👇.
La fonctionnalité Google Signals autorise le suivi des utilisateurs sur divers appareils et plateformes. Une fois activée, elle collecte des données auprès des utilisateurs ayant un compte Google et ayant activé cette fonctionnalité dans leurs paramètres de compte. Ces données ou signaux Google sont ensuite exploitées pour fournir des informations sur les caractéristiques démographiques, les centres d'intérêt, et d'autres aspects de votre audience.
En activant Google Signals, votre propriété GA4 recueillera plus de données et débloquera des fonctionnalités spécifiques. Cela conduit à au moins deux raisons pour lesquelles, en tant qu’utilisateur de GA4, vous devez envisager d'activer Google Signals :
Mais comme annoncé au début de l’article, son utilisation amène à un seuil appliqué à vos rapports …
Lorsque vous examinez le rapport et que la propriété contient des données provenant de Google Signals, Google Analytics masquera les lignes dans les rapports qui présentent un faible nombre d'utilisateurs : donc si vous avez peu de trafic et peu d’action de conversion, pour certaines vous risquez de ne pas les voir remonter. Google n’a pas communiqué sur le nombre d’événements de conversion / session nécessaire pour que les informations remontent dans les rapports malgré le seuil mais d’après nos recherches chez Smart Bees, on peut évoquer que sous 50 utilisateurs ou événements remontés, ils n’apparaîtront pas dans vos rapports avec Google Signals activé. 🤓
Par exemple, dans vos rapports d'acquisition, si certaines sources de trafic ont généré moins de 50 utilisateurs au cours de la période considérée, l'interface GA4 ne présentera pas ces données. Pour y accéder, il faudra faire appel à d’autres tables de données Google, car celles-ci sont bien stockées, mais malheureusement pas présente dans vos rapports par défaut.
Pourquoi Google a décidé de cacher ces lignes ?
Google nous dit que c’est pour vous empêcher d’identifier les utilisateurs trop précisément car vous aurez accès à des informations comme leur âge, sexe, centres d’intérêts etc. Donc pour vous éviter de pouvoir faire le lien entre un utilisateur ayant réalisé un événement spécifique et les données fournies, Google a décidé de masquer ces lignes.
On peut se le dire, l’explication est un peu tirée par les cheveux, car il reste très difficile d’aller vers une réelle identification d’un utilisateur. Surtout que la donnée Google Signals n’est pas exportable avec le connecteur BigQuery donc bon… Google a sans doute ses raisons et ça va dans le sens de davantage de protection de la vie privée donc tant mieux !
On peut se dire que 50 utilisateurs, ce n’est pas grand chose ? Cependant, il existe des situations où cet impact peut être considérablement plus significatif. Notamment, les petits sites web, qui enregistrent seulement quelques centaines de visiteurs par jour ou par semaine, si vous êtes dans ce cas, vous allez rencontrer un peu de difficulté dans la lecture de vos rapports. Envisagez la possibilité de ne pas pouvoir visualiser la moitié de vos événements dans les rapports simplement parce qu'il y en a peu. Dans de telles circonstances, vous pourriez être contraint d'opter pour une identité pour le reporting basée sur l'appareil (je vous explique tout ça plus loin dans l’article). Notez simplement, que si vous êtes dans ce cas-là, on vous recommande chez Smart Bees de passer régulièrement d'un paramètre d'identité de rapport à un autre afin d'évaluer l'impact.
Maintenant qu’on a compris d’où viennent ces seuils, il faut trouver des solutions pour l’éviter !
Tout va passer par le set-up de votre propriété Google Analytics 4, je liste 3 solutions, mais qui seront amenées à être modifiées d’ici quelques mois (restez jusqu’à la fin de l’article ! 😉)
Voici les options de set-up :
Je vous propose de rentrer un peu plus en détail à propos de certaines configurations :
Déjà, petit rappel, savez-vous à quoi correspond l’identité de reporting ? 😎
Voici le lien de la documentation Google à ce sujet 👈
L'identité pour le reporting est une fonctionnalité qui influence la manière dont Google Analytics comptabilise les utilisateurs de votre site ou application. Il interroge sur l'utilisation exclusive des données via les cookies, la considération des données d'identification de l'utilisateur que vous pourriez déjà envoyer à GA (user_id par exemple), et l'inclusion éventuelle des données des signaux Google.
Vous avez la possibilité de le modifier en accédant à l'onglet Administration > Identité pour le reporting.
Là, si vous y êtes, vous voyez généralement que deux options visibles mais regardez en bas, en réalité, il y en a trois. Cliquez sur "Tout Afficher".
L'identité de reporting “basée sur l'appareil” est la plus rudimentaire, utilisant uniquement l'identifiant de l'appareil (ou le cookie de première partie). Si un utilisateur utilise plusieurs navigateurs ou appareils, GA les traitera comme des utilisateurs distincts. On retrouve le bon vieux modèle présent dans Universal Analytics : un utilisateur correspondant à un cookie (déposé sur l’appareil et le navigateur de l’utilisateur ! Si l’un des paramètres change, un autre cookie sera déposé et la réconciliation autour de cet utilisateur sera difficile !)
Le mode "Observé" est plus avancé, tirant parti des données des cookies, des signaux Google (si activés), et de l'identifiant de l'utilisateur (si intégré dans votre paramétrage GA4 : intégration du user_id dans votre balise de configuration par exemple). Des éléments comme l'identifiant de l'utilisateur ou les signaux Google peuvent permettre une réconciliation des sessions de vos utilisateurs et ainsi éviter les doublons d'utilisateurs dans vos rapports Google Analytics 4.
La méthode “Mélangée”, est la plus sophistiquée, intégrant toutes les méthodes d'identification précédentes et faisant appel à l'apprentissage automatique (machine learning : utilisation des algorithmes Google et les données poussées par Google Consent Mode) pour compléter les données manquantes à cause des personnes n’ayant pas consenti et afin de les modéliser. L'activation de cette fonction nécessite la mise en œuvre du mode de consentement de Google.
Donc, vous l’avez compris mais si vous utilisez les méthodes “Observée” et “Mélangée”, il est probable qu'un seuil soit appliqué. Pour le reste, en passant par la méthode basée sur l'appareil, Google Signals ne sera plus utilisé pour calculer le nombre d'utilisateurs, et le seuil ne s'appliquera plus. Dans GA4, ce qui est génial, c’est qu’il est possible de modifier le mode de reporting utilisé sans impact sur ses données. Vous pouvez les ajuster à volonté, sans affecter les données stockées dans la base de données de GA. Et cela, s'applique de manière rétroactive, donc n’hésitez pas à tester !
Pour la première option, chez Smart Bees, on vous conseille d’éviter d'intégrer les signaux Google dans votre identité de rapport. Google a introduit depuis peu une nouvelle fonctionnalité qui vous autorise à exclure les données des signaux Google de l'identité de reporting (voir illustration ci-dessus). Cela signifie que vous pouvez toujours tirer parti de Google Signals pour les audiences (à importer dans Google Ads) qui est le gros intérêt de Google Signals, sans toutefois impacter le décompte des utilisateurs ni les seuils dans vos rapports, notamment si vous utilisez des identités de rapport mixtes ou observées.
Pour rappel, vous pouvez effectuer cette gestion en accédant à Administration > Collecte et modification des données > Collecte des données. Ensuite, désactivez simplement l'option "Inclure les signaux Google dans l'identité pour le reporting." 😌
Vous avez sans doute reçu un mesage dans votre boite mail (si vous avez accès à une propriété analytics) indiquant que la fonctionnalité Google Signals serait retirée des modes de reporting à partir du 12 février 2024 ! Si vous gardez l’option activée dans votre paramétrage :
Tous les experts sont ravis de cette modification.
Si on peut retirer les seuils de GA4, c’est avec plaisir ! J’espère que cette mise à jour de GA4 et la “fin” de Google Signals sera bénéfique pour la lecture des rapports !
Mais pour l’instant, faisons avec l’existant ! Le seuil des données appliqué dans Google Analytics 4 n'est pas un échantillonnage. Il s'agit de choses différentes à ne pas confondre. Actuellement, Le seuil est appliqué lorsque votre propriété GA4 remplit le paramétrage suivant :
Nous vous avons donné nos recommandations afin d’éviter que le seuil de données vous empêche la lecture de certains rapports à l'avenir. Si vous avez des questions sur l’identité de reporting ou Google Signals ou les seuils dans vos rapports, n’hésitez pas à nous contacter chez Smart Bees !