Data Classification: a Must-read for Any Manager Dealing with Data

Vorige week schreven we over het gebruik van een datastrategie. Deze week willen we ons zakelijke publiek informeren over de soorten gegevens die je kunt tegenkomen in een zakelijke context. Gegevensclassificatie is een noodzakelijk onderdeel van elk gegevensactivatieplan. Als je het googlet, zul je waarschijnlijk verdrinken in de vele deelgebieden die gegevens op hun specifieke manier classificeren, waarvan statistiek en softwareontwikkeling de meest voorkomende zijn. In deze blogpost willen we de klassen en categorieën onder de aandacht brengen die hoogstwaarschijnlijk van invloed zullen zijn op uw data-aanpak.

Op hoog niveau kunnen we zeggen dat het meest rudimentaire verschil dat is tussen "kwantitatieve" en "kwalitatieve" gegevens. Hoewel er hele handleidingen bestaan over het onderwerp van elk van deze (en hun toepassingen), kan men – in zeer algemene termen – zeggen dat de eerstgenoemde “cijfers” gebruikt om betekenis te geven aan gebeurtenissen en situaties, terwijl de laatstgenoemde “woorden” gebruikt om ze te beschrijven. . Hoewel er nog steeds veel discussie bestaat over welke klasse welk doel het beste dient, zijn de meesten het er waarschijnlijk over eens dat kwalitatieve gegevens (zoals transcripties van interviews, stemopnames, focusgroeprapporten, enz.) nuttig zijn voor het opbouwen van theorieën, terwijl kwantitatieve gegevens helpen bij het testen van theorieën.

Een tweede bruikbare indeling is die tussen gestructureerde, semi-gestructureerde en ongestructureerde gegevens. De meeste databases die in organisaties actief zijn, zijn opslagplaatsen voor gestructureerde gegevens. Het beste voorbeeld is de standaard relationele database (bijvoorbeeld: SQL) die tabellen (rijen en kolommen, ook wel records en velden genoemd) gebruikt om gegevens te ordenen. Een typisch voorbeeld zou ‘leeftijd’ kunnen zijn, dat een waarde tussen 0 en bijvoorbeeld 120 kan hebben (sommige mensen worden ouder dan 100). Interessant detail: huidige schattingen van het totale datavolume vermelden dat minder dan 20% van alle geregistreerde data van gestructureerde aard is. Met de explosie van het internet (en het delen van afbeeldingen, geluiden, enz.) is de hoeveelheid semi-gestructureerde en ongestructureerde gegevens gestaag toegenomen. Voor het opslaan van die informatie zijn verschillende soorten dataoplossingen nodig, zoals NoSQL-databases, datalakes of data lakehouses).

Een derde classificatie die u kunt gebruiken in classificatiestrategieën is die van door machines gegenereerde gegevens versus door mensen gegenereerde gegevensWe zijn allemaal “producenten” van (digitale) inhoud. Elke keer dat we tweeten, op Instagram posten of een filmpje op YouTube uploaden, 'creëren' we inhoud. Soms doen we het zelfs zonder dat we ons er bewust van zijn (denk aan ons ‘klikgedrag’). Dat gezegd hebbende, valt onze eigen inhoud in het niet bij de tsunami van machinaal gegenereerde gegevens die worden geproduceerd (waarvan het volume exponentieel zal stijgen met het toegenomen gebruik van “slimme” apparaten). Een Tesla (of een andere ‘slimme auto’) genereert wekelijks tussen de 2 en 5 terabyte aan data. De mens zal dat simpelweg niet kunnen bijhouden. In moderne fabrieken doen PLC's (programmable logic controllers) precies hetzelfde.

“De groei van de vraag naar geheugen zal het aanbod van silicium overtreffen, wat kansen biedt voor radicaal nieuwe geheugen- en opslagoplossingen.”

Naarmate de snelheid, het volume en de verscheidenheid (de drie ‘V’s’) van het genereren van data toenemen, groeit ook onze behoefte aan moderne mogelijkheden voor dataopslag en dataverwerking. We zouden ook kunnen zeggen dat de complexiteit van data toeneemt naarmate we te maken hebben met zaken als hoogdimensionale data (gebruikt in gezichtsherkenningstechnologieën) en real-time data (sommige industrieën moeten zo precies mogelijk weten wat de waarde van een gegeven parameter in een bepaalde situatie is). Een van de veelbelovende nieuwe technologieën die belangrijk kunnen blijken om met ‘big data’ om te gaan (een term die wordt gebruikt om gegevensvolumes aan te duiden die moeilijk te verwerken zijn met traditionele relationele databasemodellen) zijn "kennisgrafieken." Worstelt u met prestatieproblemen of wilt u meer weten over de mogelijkheden van deze technologie in uw vakgebied, neem dan gerust contact met ons op en bespreek de mogelijkheden.

“De groei van de vraag naar geheugen zal het aanbod van silicium overtreffen, wat kansen biedt voor radicaal nieuwe geheugen- en opslagoplossingen.”

De juiste data-architectuur kiezen

Een datacultuur bevorderen

Geen verantwoordelijkheid zonder verantwoording

Datastrategie

Gegevensclassificatie: een must voor elke manager die met gegevens omgaat

“De groei van de vraag naar geheugen zal het aanbod van silicium overtreffen, wat kansen biedt voor radicaal nieuwe geheugen- en opslagoplossingen.”

Gerelateerde berichten

De juiste data-architectuur kiezen

Een datacultuur bevorderen

Geen verantwoordelijkheid zonder verantwoording