Data sampling is een hot topic als het gaat over Google Analytics. Vooral voor websites met enorme datasets (denk aan e-commerce met honderden of zelfs duizenden producten), beperkt het gebruik van de gratis versie van Google Analytics ons vaak om slechts een fractie van de gegevens te kunnen zien.
Wat is sampled data?
Data sampling is een statistische analysetechniek om bepaalde trends, inzichten of patronen in een grotere dataset te identificeren. In de praktijk is een sample een kleine subset van je totale gegevens om een glimp op te vangen van de volledige, grotere, dataset.
Google's Universal Analytics maakt over het algemeen gebruik van data sampling om sneller te kunnen reageren. Dit wordt gebruikt voor zowel standaard als aangepaste (of ad hoc) rapporten. Bij data sampling neemt GA een kleine fractie van het aantal sessies en vergroot deze fractie naar de gehele populatie.
De exacte drempel is 500k sessies voor Google Analytics Standard (of de gratis versie van GA), en 100M sessies voor GA360. Echter, wij bij Semetis hebben ervaren dat deze drempel verlaagd wordt wanneer de complexiteit van je rapport toeneemt, bijvoorbeeld bij het toevoegen van extra dimensies, filters of segmenten.
Dit klinkt in eerste instantie niet als een groot probleem, maar hoe groter je dataset wordt, hoe groter de discrepantie wordt tussen je sampled data en de exacte data. Wanneer je moet rapporteren over exacte data zoals revenue, kan dit problematisch worden.
Hoe vermijd je sampled data?
In de praktijk zijn er twee manieren om data sampling te vermijden:
- Je gaat voor GA360, de betaalde versie, en je krijgt praktisch nooit te maken met data sampling.
- Je gebruikt andere tools die rond data sampling heen werken.
Deze tools (zoals Supermetrics of Funnel.io) splitsen je hele dataset op in kleinere delen. Supermetrics splitst je volledige query op in afzonderlijke "subqueries", terwijl Funnel.io voortdurend je meest recente gegevens importeert.
Unsampled data in DataStudio
Wanneer we Google Analytics in DataStudio gebruiken, gebruiken we meestal een Google Connector. Dit is de native integratie van alle Google-tools met DataStudio. Deze native integratie bestaat ook met Google Ads, DV360, Campaign Manager enzovoort.
Wat sampled data betreft, heeft Google Data Studio dezelfde beperking als Google Analytics in-platform. Data Studio kan deze data sampling ook weergeven.
Maar, zoals hierboven uitgelegd, kunnen bepaalde tools dat omzeilen. De meest eenvoudige manier is het gebruik van Supermetrics voor Google Sheets, waarmee je een vakje kunt aanvinken om data sampling in je query te vermijden.
Als het gaat om Google Data Studio, is er een Supermetrics Google Analytics connector. Wanneer je Google Analytics aan je rapport toevoegt als gegevensbron, kan je data sampling ontwijken, net als in Google Sheets.
Je kan dit zelfs aanpassen bij elke grafiek die je aan het rapport toevoegt, onder "Parameters".
Bonus: via de Supermetrics connector kun je ook rapporten toevoegen die je niet via de Google Connector kunt toevoegen, zoals Multi-Channel Funnels om te rapporteren over Assisted Conversions.