Google Analytics est le service d’analyse d’audience de site internet le plus utilisé sur le web. Il fournit des rapports et des outils permettant aux webmasters d’analyser le trafic de manière très poussée.

Depuis maintenant plusieurs mois, nombreux sont les utilisateurs d’Analytics qui ont vu le trafic de leur site internet augmenter fortement, la cause : des sites tels que semalt, trafficmonetize, 4webmasters, free-socialbuttons, pour ne citer qu’eux.

Ce phénomène, appelé Referrer Spam ou Referrer Bombing, est en plein essor. Dans cet article nous allons nous penché sur cette technique qui fait grincer les dents de beaucoup d’entre vous et nous verrons ensemble comment savoir si son site internet est touché, quels sont les risques et quelles sont les solutions fiables pour contrer le problème.

Qu’est-ce que le Referrer Spam ?

Le référent est le nom qui est communiqué via l’en-tête HTTP quand un navigateur web passe d’un page à une autre. Normalement, il est utilisé pour indiquer d’où vient l’internaute.

Ceci étant dit, le référent peut être modifié en tout et n’importe quoi. Ainsi, certaines personnes vont le changer afin de faire la promotion d’un site web en particulier en réalisant des requêtes répétées pointants vers un site internet victime (à l’aide d’un script automatisé). – Matt Cutts

Quelle est l’utilité des spammeurs ?

La réponse est simple : Obtenir du trafic. Un webmaster va toujours avoir envie d’analyser ce qu’il se passe sur son site internet, lorsqu’il va remarquer l’accroissement des visites dans ces rapports Analytics, il va cliquer sur l’URL du referrer afin de découvrir d’un peu plus près le site qui lui génère du trafic.

Un autre objectif peut également être l’utilisation de cette technique à des fins de spamdexing. Certains sites internet affichant publiquement leurs statistiques, les sites référents frauduleux qui ont été apporteurs de (faux) trafic obtiennent alors des centaines de backlinks pointant vers eux, améliorant ainsi leur positionnement dans les résultats des moteurs de recherche.

L’idée est ensuite de rediriger simplement le visiteur vers une page monétisée et « Voilà ! », le tour est joué. Sachant que ces spammeurs utilisent cette méthode sur des millions de comptes Analytics à la fois, il n’est pas difficile d’imaginer le volume de trafic qui est susceptible d’être généré.

Les différents types de spams

Lorsque l’on parle de spam sur Google Analytics, il existe principalement deux méthodes utilisées par les spammeurs, il s’agit du Ghost Spam et du Crawler Referrer Spam.

Le Ghost Spam

Les référents fantômes sont les plus répandus, ils tiennent leur nom du fait qu’ils n’accèdent jamais à votre site internet, ils n’interagissent pas avec vos pages mais seulement avec votre tracker Google Analytics.

Pour réussir à faire cela, ils utilisent le Measurement Protocol mis en place par Google pour permettre aux développeurs d’envoyer des données directement sur les serveurs Analytics depuis n’importe quel environnement. C’est une fonctionnalité qui existe depuis longtemps mais qui n’était pas très bien documentée, personne ne l’utilisait.

Même si initialement le protocole de mesure de Google est une excellent outil pour exploiter encore un peu plus les capacité d’Analytics, certaines personnes ont trouvé un moyen de le détourner à des fins peu scrupuleuses. La seule chose dont ces spammeurs ont besoin est votre ID de tracking Analytics pour commencer à vous affecter.

fonctionnement-ghost-referrer

Il est probable qu’ils obtiennent les ID des trackers en générant aléatoirement des identifiants de la forme UA-XXXXXX-1. Ils n’ont ensuite qu’à injecter les fausses données dans vos rapports Analytics.

Une erreur courante est de croire que ces ghosts peuvent être bloqués côté serveur, avec par exemple l’ajout de restrictions dans le .htaccess. Pour rappel, ce fichier de configuration permet, entre autres, de contrôler qui peut accéder ou non à votre site internet ; mais comme nous l’avons évoqué plus haut, les ghosts n’interagirons jamais avec votre site. La modification du .htaccess n’aura donc aucun impact dans l’éradication des ghosts dans vos rapports Analytics.

Le spam Crawler Referrer

Un web crawler est un robot d’indexation web, il est chargé de parcourir Internet principalement pour indexer les pages, c’est un « bon » robot.

Le Crawler Referrer Spam quant à lui, parcoure aussi le Web mais avec un objectif bien différent : Apporter du trafic vers le site qui l’envoie. Ce robot ignore généralement toutes les règles spécifiées dans le robots.txt, susceptibles de leur interdire l’accès.

La différence notable entre les référents fantômes et les robots spammeurs réside dans le fait que ces derniers peuvent être bloqués par le fichier .htaccess de votre site internet.

Comment détecter le Referrer Spam ?

La manière la plus simple de détecter le spam Referrer est de chercher des référents inhabituels ou suspicieux dans vos rapports Google Analytics, des sites qui n’ont aucun lien avec le votre.

Vérifier le nom d’hôte du référent

Cette technique est la plus fiable pour détecter les spams de type Ghost Referrer. Ce type de spam est facilement détectable car le champ sera défini à (not set) ou à un faux nom d’hôte. Pour les détecter :

  1. Rendez-vous dans l’onglet « Rapports » de Google Analytics
  2. Dans la barre de gauche, sélectionnez « Acquisition »
  3. Déroulez le menu « Tout le trafic » et sélectionnez « Canaux »
  4. Dans ce rapport, sélectionnez « Source » comme dimension principale
  5. Ajoutez une dimension secondaire « Nom d’hôte »

detecter-referrer-spam

Comme vous pouvez le voir, les spams Ghost Referrer (en rouge) ont un nom d’hôte qui ne correspond pas à votre site internet. Les spams Crawlers Referrer quant à eux (en orange) présentent à nom d’hôte valide.

hote-du-referent

Vérifier la page de destination

Si vous avez un doute sur un referrer, vous pouvez utiliser la dimension secondaire « Page de destination » pour vous apporter un indice supplémentaire. Un référent frauduleux affichera toujours une page de destination fausse (une page de votre site qui n’existe pas) ou votre page d’accueil (symbolisée par un slash « / »).

Attention, cette technique doit uniquement vous servir de complément d’information sur un référent que vous jugez suspect, en aucun cas vous devez considérer un référent comme spammeur pour l’unique raison que ce dernier affiche « / » dans la colonne « Page de destination » de vos rapports.

page-destination

Vérifier les indicateurs métriques

Les spams sont réputés pour laisser dans les rapports des valeurs très hautes ou très basses.

  1. Rendez-vous dans l’onglet « Rapports » de Google Analytics
  2. Sélectionnez la période la plus longue possible
  3. Dans la barre de gauche, sélectionnez « Acquisition »
  4. Déroulez le menu « Tout le trafic » et sélectionnez « Site référents »

metrics-referals

Dans ce rapport, partez à la recherche de référents qui affichent des valeurs telles que 0% ou 100% et 0 ou 1 seconde dans les colonnes suivantes : % nouvelles sessions, taux de rebond, durée moyenne des sessions.

La grande majorité des spams sont détectables grâce à ces valeurs, cependant, de plus en plus de spammeurs sont en train de mettre à jour leurs scripts afin de changer ce comportement et paraître ainsi moins suspect.

Comment se protéger contre le Referrer Spam ?

Il existe plusieurs méthodes pour se protéger de ce type de spam.

  • Modifier votre fichier .htacces (crawlers)
  • Créer un filtre « Nom d’hôte valide » (ghosts)
  • Créer un filtre « Source de la campagne » (crawlers)
  • Activer le filtrage des robots

Modifier votre fichier .htaccess

Le fichier .htaccess est un fichier de configuration Apache qui permet notamment de définir les règles d’accès des différents répertoires et sous-répertoires de votre site internet.

Dans notre cas, ce fichier va s’avérer être très utile pour bloquer les crawlers néfastes comme ceux de semaltmedia.com, sitevaluation.org, videos-for-your-business.com, etc. Une fois de plus, il est inutile d’essayer d’utiliser cette méthode pour les ghosts referrers étant donné que ces derniers n’interagissent pas avec votre site.

Avant de commencer, je vous conseille de créer un backup de votre .htaccess actuel et d’être très attentif lors de la modification de ce fichier, un caractère mal placé peut très bien rendre une partie ou l’intégralité de votre site inaccessible.

J’ai trouvé sur le GitHub de Stevie Ray un .htaccess incluant la liste noire des spammeurs les plus répandus, vous pouvez la trouver directement ici : htaccess Referral spam blacklist. Copiez le contenu de ce fichier lignes directement dans votre .htacces. Une fois le fichier sauvegardé, les crawlers frauduleux les plus connus n’auront alors plus accès à votre site.

Si l’un des spammeurs qui sévit sur votre site internet n’est pas présent dans cette liste, vous pouvez l’ajouter à la main dans votre .htaccess, à la fois dans la partie mod_rewrite et mod_setenvif. N’hésitez pas à nous contacter également pour que la liste soit mise à jour.

Création d’un filtre « Nom d’hôte valide »

C’est de loin la manière la plus efficace de se débarrasser des spams dans Google Analytics. Il y a deux avantages à utiliser cette méthode :

  • Vous stoppez les spams avant qu’ils ne vous touchent
  • Vous n’avez besoin que d’un filtre pour stopper tous les spams ghost

Comme nous avons pu le voir, les ghosts utilisent toujours un mauvais nom d’hôte. La partie cruciale de cette solution va être de créer une liste de noms d’hôtes valides, afin d’exclure tout le trafic indésirable.

Une autre chose importante est de toujours garder une vue Analytics sans aucun filtre, si ce n’est pas le cas, je vous conseille d’en créer une avant de vous lancer dans la création du filtre.

Avant de créer ce premier filtre, nous avons d’abord besoin de dresser notre liste de noms d’hôtes.

  1. Rendez-vous dans l’onglet « Rapports » de Google Analytics
  2. Dans la barre de gauche, sélectionnez « Audience »
  3. Déroulez le menu « Technologie » et sélectionnez « Réseau »
  4. Dans la partie haute de ce rapport, veillez à sélectionner « Nom d’hôte » comme dimension principale et non « Fournisseur de service ».

Valid-Hostname-Filter-1

Noms d’hôtes valides

Ce sont tous les endroits où vous avez une vraie page qui vous appartient et sur laquelle est installé votre tracker Google Analytics, la plupart du temps ce sont tout simplement les domaines de vote site internet : mon-site.com, blog.mon-site.com, etc.

Attention cependant à ne pas oublier les différents services externes qui pourrait être lié à votre site (votre page YouTube, le service de paiement de votre e-commerce, etc). Je vous conseille d’ailleurs d’ajouter systématiquement l’URL googleusercontent.com à votre liste d’hôtes valides, ce domaine va regrouper les services tels que Google Traduction et le système de cache du moteur de recherche de Google, des outils susceptibles de vous apporter du trafic que l’on ne souhaite pas ignorer.

filtre-nom-hote

Noms d’hôtes non valides

Les noms d’hôtes incorrects sont tous ceux que vous ne reconnaissez pas comme familiers à l’environnement de votre site internet, ce sont des domaines sur lesquels vous n’avez pas de page avec votre code de suivi Analytics.

Dans notre cas, nous n’avons pas de page sur google.com, google.ru et encore moins sur dqzbqiaf.br, ces noms d’hôtes sont donc à exclure. Une fois que vous avez dressé votre liste de noms d’hôtes valides, vous allez devoir créer une expression régulière qui les réuni tous.

mon-site.fr|youtube.com|googleusercontent.com

Si vous avez des sous-domaines, il n’est pas nécéssaire de les ajouter à la liste. Si vous ajoutez « mon-site.fr » cela comprendra aussi tous les sous-domaines tels que « blog.mon-site.fr ».

Astuce pour votre regexp :

Ne laissez aucun espace dans votre expression régulière. Le caractère pipe « | » est utilisé pour séparer les noms d’hôtes. Vous pouvez également échapper les « . » avec l’antislash « \ » comme dans une regexp traditionnelle mais Google Analytics accepte les « . » non échappés dans son système.

Une fois que vous avez terminé votre regexp, vous pouvez maintenant l’ajouter à un filtre de type « Inclure » dans Google Analytics :

Select-Filter

  1. Rendez-vous dans l’onglet « Admin » de Google Analytics
  2. Dans la colonne « Vue », sélectionnez la vue sur laquelle vous souhaitez appliquer le filtre
  3. Cliquez sur « Filtres » puis « + Nouveau filtre »
  4. Cochez « Créer un filtre » et nommez-le « Nom d’hôte valide »
  5. Dans le champ « Type de filtre » sélectionnez « Personnalisé »
  6. Cochez « Inclure » et sélectionnez « Nom d’hôte » dans le menu déroulant
  7. Pour terminer, coller votre regexp dans le champ « Règle de filtrage »

ajouter-un-filtre

Je vous recommande fortement de vérifier le filtre avant de le sauvegarder. Cliquez sur « Vérifier ce filtre », un tableau apparait pour vous montrer la différence entre l’avant et l’après filtrage.

verifier-filtre

Une fois que vous êtes sûr que vous n’avez pas exclu des données valides, vous pouvez sauvegarder le filtre, ce dernier vous protégera désormais des spams de type ghost.

Attention : Si vous ajoutez un domaine supplémentaire à votre site internet ou si vous incluez votre tracker Google Analytics sur un nouveau site externe (comme PayPal ou YouTube, par exemple), vous devez impérativement mettre à jour votre regexp si vous ne voulez pas voir ces données être automatiquement exclues.

Création d’un filtre « Source de la campagne »

Cette solution est utile si vous ne pouvez ou ne voulez pas modifier le .htacces de votre site internet.

  1. Rendez-vous dans l’onglet « Admin » de Google Analytics
  2. Dans la colonne « Vue », sélectionnez la vue sur laquelle vous souhaitez appliquer le filtre
  3. Cliquez sur « Filtres » puis « + Nouveau filtre »
  4. Cochez « Créer un filtre » et nommez-le « Spam Referrals »
  5. Dans le champ « Type de filtre » sélectionnez « Personnalisé »
  6. Cochez « Exclure » et sélectionnez « Source de la campagne » dans le menu déroulant
  7. Pour terminer, coller dans le champ « Règle de filtrage » votre regexp contenant tous les domaines qui vous génèrent actuellement du spam.

filtre-spam-refferrer

Une fois de plus, vous pouvez utiliser l’outil de vérification du filtre pour comparer les résultats avant de sauvegarder. Notez que les filtres de Google Analytics mettent en général 24h avant d’être effectifs, pas de panique si vous ne voyez pas le fruit de votre travail instantanément.

Activer le filtrage des robots

Si internet existe c’est grâce aux « bons » robots, ils parcourent la toile à la recherche de contenu, ils indexent et classent les pages web. Le moteur de recherche de Google n’existerait pas sans eux.

Pour empêcher leur trafic d’apparaitre dans vos rapports, des normes ont été mises en place pour que ces robots d’exploration puissent s’auto-identifier afin que les outils d’analyse de trafic puissent automatiquement les filtrer.

Google a prévu une fonctionnalité pour filtrer le trafic de ces robots, pour cela il suffit de cocher une case.

  1. Rendez-vous dans l’onglet « Admin » de Google Analytics
  2. Dans la colonne « Vue », sélectionnez la vue sur laquelle vous souhaitez appliquer le filtrage
  3. Cliquez sur « Paramètre de la vue » puis recherchez le champ « Filtrage des robots » en bas de la page
  4. Cochez la case « Exclure tous les appels provenant de robots connus »

google-bot-filtre

Conclusion

Le Referrer Spam affecte de plus en plus de sites internet, vous pouvez stopper tous les types de spams avec une combinaison d’actions à réaliser à la fois dans Google Analytics et dans le fichier .htacces de votre site internet.

Le filtre « Nom d’hôte valide » vous protégera contre les ghosts (qui n’accèdent pas à votre site), votre .htacces et le filtre « Source de la campagne » vous protégerons des crawlers, et pour terminer, le filtrage des robots de Google Analytics exclura automatiquement de vos rapports les visites générées par les robots d’exploration connus.

Même si ces solutions fonctionnent actuellement, il y a malheureusement fort à parier que les spammeurs réussiront à redoubler d’inventivité pour concocter dans les temps à venir un nouveau type de spam qui passera au travers de ces barrières… Google a donc grandement intérêt à prendre le problème au sérieux en créant de nouveaux mécanismes pour lutter contre ce phénomène de Referrer Spam s’il ne veut pas que son outil d’analyse se fasse engloutir.


J’espère que cet article vous aura aidé à mieux comprendre ce sujet et que ces astuces vous seront utiles dans l’assainissement de vos rapports Google Analytics. :)

Si vous avez des questions ou si vous avez besoin d’aide dans la mise en place de ces actions, n’hésitez pas à commenter cet article ou à nous contacter directement à l’agence.