Cas pratiques de Regex pour Google Analytics

Les Regex pour Analytics

Aujourd'hui plus que jamais, la lecture des données des outils Analytics (GA, Xiti, Omniture, etc.) est devenue un enjeu primordial pour les sociétés souhaitant analyser leur trafic et en tirer des conclusions et stratégies. Google Analytics est, je trouve, le plus simple d'utilisation pour les novices, mais peut devenir très puissant quand on sait utiliser des techniques avancées telles que les expressions régulières (ou "Regex"). J'ai vu énormément d'articles expliquer ce que c'est avec beaucoup de théorie, mais très peu d'applications. Cet article a donc pour objectif de vous donner des cas pratiques d'expressions régulières pour Analytics, qui vous permettront de tirer le meilleur de cet outil avec quelques formules.

 

Rappels sur les caractères pouvant servir dans Analytics:

Même si l'article n'a pas pour objectif d'expliquer ce que sont les Regex, voici tout de même quelques rappels de caractères qui serviront par la suite dans nos expressions.

  • . Correspond à un seul caractère (lettre ou chiffre)
  • * Correspond à zéro ou à plusieurs éléments précédents
  • + Même fonction que l'étoile, mais le signe "+" doit correspondre au moins au dernier élément
  • ? Correspond à zéro ou à un élément précédent
  • | Correspond à l'expression logique "ou"
  • ^ Nécessite que les données soient placées au début de son champ
  • $ Nécessite que vos données soient placées à la fin de son champ
  • () Utiliser les parenthèses pour créer un élément, au lieu d'accepter les valeurs par défaut
  • [] Utilisez les crochets afin de créer une liste d'éléments de correspondance
  • - Utilisez des tirets avec des crochets afin d'élargir votre liste
  • {} permet de gérer les répétitions
  • \d correspond à un chiffre, alors que \D ne correspond pas à un chiffre

 

Exclure une plage d'IP

Pour disposer de données les plus fiables et pertinentes possibles, il convient d'exclure certaines IP afin de disposer des visites provenant d'internautes intéressés par votre site. Il convient donc toujours d'exclure les adresses IP de sa société et de ses potentiels partenaires (agences webmarketing, agences créa, etc.).

Pour cela, il faut créer un nouveau filtre afin de toujours garder les données de bases.

Dans la création du filtre personnalisé, on pourra donc exclure l'adresse IP. Voici les différents cas qui peuvent apparaitre :

  • Une seule IP à exclure : on remplit une adresse IP par exemple 81.57.107.27
  • Une plage d'adresses : dans ce cas on pourra remplacer l'ensemble des chiffres changeant par un "." (sans les guillemets). Par exemple 91/.199/.103/.*
    L'outil de plage d'adresses IP de Google est aussi très pratique pour générer les Regex http://bit.ly/Y2Y7xD
  • Plusieurs IP à la suite : il faut alors utiliser le "|" pour séparer les IP, par exemple 98.54.247.57|74.54.574.22

 

Analyse de mots clés avec les Regex Google Analytics

Quand on souhaite analyser les mots-clés, par exemple le trafic de notoriété (visites avec le nom de marque), on voit que les visiteurs peuvent taper de nombreuses déclinaisons de la marque, avec ses fautes d'orthographe. De même, pour une expression donnée, on pourra avoir des majuscule, minuscule, accent ou sans accent, etc. Afin de créer un rapport complet, nous allons utiliser les Regex pour récupérer l'ensemble des déclinaisons.

Dans la page "Résultats naturels" de Google Analytics, aller dans le filtre avancé puis sélectionner "Inclure" "Mot-clé" "Correspondance avec une expression régulière", et remplir la case selon les cas. On aura par exemple :

  • ^intestable$ > pour n'avoir que le mot-clé "intestable", sans aucun autre mot devant ou derrière
  • pi[è|e|é]ce > récupère le mot-clé "piece" avec l'ensemble des accents
  • G[o-oo]gle > récupérer les mots contenant Google ou Gogle
  • G[o-oO-OO]gle > récupérer les mots-clés, avec un ou deux "O" en minuscule ou majuscule : Gogle, Google, GOgle, GOOgle.
  • maxisco+t > récupère tous les mots-clés contenant au moins un "O" : maxiscoot, maxiscot, maxiscooot, maxiscooot
  • heroe?s > ici, le "e" est optionnel donc on pourra capter à la fois "heroes" et "heros". Cela s'applique à beaucoup de marques où les mispellings sont nombreux ("accor hotel" et "accord hotel", "apple" et "aple")

 

Créer un objectif de page de destination

Les expressions régulières vous aussi permettre de définir un objectif à chaque fois qu'une page de destination apparait. Cela peut être une confirmation de commande, de formulaire, de téléchargement de document, etc.

Dans le plus simple des cas, l'URL de confirmation est réécrite et est du type /confirmation-de-commande.html. Il suffit donc de rentrer "/confirmation-de-commande.html" dans le champ "URL de la page d'objectif"

Dans des cas plus complexes, une confirmation peut s'adapter en fonction de la catégorie du site par exemple:

  • /categorie1/produit1/confirmation-commande.html
  • /categorie1/produit2/confirmation-commande.html
  • /categorie2/produit3/confirmation-commande.html

Pour ce cas, l'expression régulière à utiliser est du type : .*/confirmation-commande.html

Plus compliqué, les URLs possèdent un ID de confirmation à la fin, ID pouvant changer :

  • /categorie1/produit?id=1
  • /categorie1/produit?id=2
  • /categorie1/produit?id=3

Là, il faut remplir : /categorie1/produit?id=[0-3]

 

Déterminer le trafic provenant d'une source donnée

  • Pour connaitre son trafic provenant de Google Search (et non pas des outils comme images.google, translate.googleusercontent.com, mail.google.com): ^google.* (attention à ne pas oublier le chapeau sinon les sous-domaines de Google ressortent) :
  • Déterminer le trafic provenant du vertical Google Images : ^images.google.*
  • Déterminer le trafic provenant des principaux réseaux sociaux : facebook|linkedin|twitter|myspace|bit\.ly|tinyurl|netvibes|viadeo|plus.url.google.com

 

Analyser les pages de destinations

Si l'on souhaite analyser l'ensemble des visites des pages possédant par une exemple une date ou une catégorie, plutôt que de taper dans la recherche avancée plusieurs filtres:

  • Include - Landing page - Containing - /2013/01
  • Include - Landing page - Containing - /2013/02
  • Include - Landing page - Containing - /2013/03

Une seule expression régulière dans Analytics suffira pour regrouper l'ensemble de ces pages : /2013/0[1-3] (prendre en compte toutes les urls contenant  /2013/0 suivi du nombre 1 à 3

 

Analyse de la longue traîne

Voici quelques Regex à utiliser pour analyser vos expressions Longue Traine, très utilises pour le SEO et le SEA :

  • Afficher les requêtes contenants 2 mots-clés : ^(\W*\w+\b\W*){2}$
  • Afficher les requêtes contenants de 3 à 6 mots-clés : ^(\W*\w+\b\W*){3,6}$
  • Afficher les requêtes contenants 5 mots-clés et plus : ^(\W*\w+\b\W*){5,}$

Vous pouvez aussi utiliser l'expression régulière suivante pour trouver les visites sur des pages possédant plus de 4 répertoires  ^/([^/]+/){3}[^/]*$

 

Pour finir, je vous recommande Regex Tester App, un plugin qui permet de vérifier ses expressions régulières avant de les mettre en place. http://bit.ly/Xmza43

 

Et vous, quelles expressions régulières de Google Analytics utilisez vous le plus ?

A propos de l'auteur

Portrait de Nicolas Plantelin

Nicolas Plantelin est un expert du Search Marketing. Il a eu l'occasion de faire du consulting SEO/SEA pour des grands comptes, avant de devenir responsable du SEO chez l'annonceur. Suivez-le sur Google+ et Twitter pour suivre l'actualité du Search !