Auteur: Zoi Karampatzaki (data-analist)

In mijn ervaring als consultant realiseerde ik me dat mensen zich niet altijd bewust zijn van het bestaan van het spreidingsdiagram. Zelfs als ze weten dat het bestaat, weten ze niet hoe ze erom moeten vragen. Met dit artikel wil ik de horizon verbreden van mensen die geen datagerelateerde achtergrond hebben en de taal creëren om met ons te communiceren.

Allereerst is het sleutelwoord dat er altijd bij moet horen de relatie. Met een spreidingsdiagram visualiseren we in feite de relatie tussen twee variabelen. De lengte en het gewicht van een individu zijn bijvoorbeeld niet onafhankelijk van elkaar, aangezien over het algemeen geldt dat hoe groter iemand is, hoe meer hij weegt. Als we deze relatie in kaart brengen, krijgen we een reeks punten die een specifiek patroon volgen. Dit patroon kan lineair of kwadratisch zijn, of zelfs ingewikkelder. Een spreidingsdiagram maakt meestal deel uit van verkennende analyses, waarbij visualisaties ons helpen de gegevens beter te begrijpen voordat we overgaan tot de statistieken of methoden voor machinaal leren.

Het spreidingsdiagram in Power BI

In de standaardafbeeldingen kunt u het zogenaamde spreidingsdiagram vinden en de statistieken ervan direct toepassen. In tegenstelling tot andere omgevingen, zoals Python en R, waar slechts twee variabelen nodig zijn (de x- en y-as), hebben we in Power BI ook het veld "waarde". In dit veld moeten we het niveau toevoegen waarop de analyse wordt uitgevoerd. In een lengte-gewichtgrafiek is de waarde bijvoorbeeld de persoons-ID. In een spreidingsdiagram dat de relatie verkoop-winst weergeeft, zal de waarde een product-ID of een verkoop-ID enz. zijn. In dit geval kunnen we onze gegevens op veel niveaus visualiseren, omdat de aggregatie indien nodig automatisch door Power BI wordt uitgevoerd. Er kan ook een legenda aan de grafiek worden toegevoegd, waarin met verschillende kleuren wordt weergegeven welke stippen tot een specifieke groep behoren (geslacht, leeftijdsgroep enz.).

Beschouw een voorbeelddataset waarin we de relatie willen visualiseren tussen het aantal activiteiten en het aantal deals dat een gebruiker heeft gesloten. De x- en y-asvelden werden gevuld met de respectieve variabelen en de opgeslagen “waarde” bevatte de gebruikers-ID. Als we aan de rechterkant, in de kolom ‘Visualisaties’ op het lenspictogram klikken en de ‘Trendlijn’ inschakelen, verkrijgen we de trendlijn van de gegevenspunten. In ons geval kan worden opgemerkt dat de automatisch gecreëerde trendlijn niet goed aansluit. Eigenlijk kun je twee hoofdtrends waarnemen in plaats van één.

Naast de legenda die de dataverdeling kan weergeven met betrekking tot een classificatie die al in de dataset is gegeven, kan men automatische clustering uitvoeren. Door op de 3 stippen rechtsboven in de visual te klikken, kan men kiezen voor “Automatisch clusters zoeken”. Het programma maakt automatisch een classificatie van de gegevens en toont de labels als een nieuwe variabele in de sectie Velden (rechts). Wanneer men de nieuwe geclusterde variabele naar het veld “Legenda” sleept en neerzet, worden de clusters in de grafiek weergegeven.

Om ten slotte twee trendlijnen te krijgen in plaats van één, klikken we opnieuw op het lenspictogram, maar deze keer schakelen we de optie "reeksen combineren" uit. Nu zijn de trendlijnen duidelijk representatiever voor de gegevens. De visual laat zien dat er twee categorieën gebruikers zijn. Degenen van Cluster 1 die minder deals winnen, hebben veel activiteiten, en degenen van Cluster 2 die daarentegen meer deals sluiten zonder veel activiteiten.

Concluderend kan een spreidingsdiagram deel uitmaken van pre-lineaire regressieanalyse tussen twee variabelen. Het visualiseert de relatie tussen twee statistieken. In deze relatie kunnen andere factoren een belangrijke rol spelen, zoals categorische variabelen. Power BI biedt een automatische clusteroptie, waarbij de dataset in verschillende groepen wordt opgesplitst, wat nauwkeurigere resultaten oplevert.