Blog – Iedere dag genereren we meer gegevens. Zeker nu geavanceerde AI-tools toegang krijgen tot ongestructureerde data. Ze zijn afkomstig van mensen en applicaties, en zitten verspreid over datacenters, edge-locaties en public cloud. Het gevolg is een complex en versnipperd landschap dat het beheer, de beveiliging en analyse van data moeilijk en foutgevoelig maakt.
In het huidige ai-tijdperk is toegang tot goede data zo belangrijk dat we ons beheermodel anders moeten invullen. De volgende principes zijn belangrijk voor een doeltreffende strategie:
1. Koppel beleid aan data in plaats van opslaglocatie
Om zeker te zijn dat het juiste beleid gevolgd wordt voor het gebruik van data, is het belangrijk dat we die regels aan de gegevens zelf vasthangen. Beleid koppelen aan opslaglocatie is immers niet praktisch als alle data in silo’s opgeslagen zit. Door met tags te werken, blijven de juiste regels voor het beheer en de beveiliging van data overal van kracht. Het maakt dus niet uit waar de data zich bevindt of naar waar gegevens worden verplaatst.
2. Automatiseer het taggen van je data met ai
Automatisch taggen bij het aanmaken of wijzigen van bestanden is een uitdaging die aanzienlijke rekenkracht vereist. Traditionele AI is sterk in classificatie en het herkennen van patronen die met standaardregelgeving niet zichtbaar zouden zijn. Zet daarom zeker in op het gebruik van AI om je data meteen te analyseren, classificeren en taggen.
De komst van Generatieve ai (GenAI) heeft dit complexer gemaakt. Zo creëren moderne modellen nieuwe content op basis van de data die ze te zien krijgen. Maar aangezien ze ook zelf bestaan uit ongestructureerde dataobjecten, zoals code en parameters, moeten we hier voorzichtig mee zijn. Een AI-model kan trainingsdata namelijk niet vergeten en moet dus aan dezelfde veiligheidseisen voldoen als de gevoelige gegevens waarop het getraind is.
3. Tag ook je modellen
De oplossing luidt opnieuw: taggen. Maar hoe genereren we tags voor modellen? Hiervoor werken we met een optelsom van alle beleidsregels die gelden voor de data waarmee het model is ontwikkeld. In plaats van datafragmenten apart te tracken, sturen we het model gewoon aan op basis van de samenstelling van tags. Dat is vooral belangrijk in hybride cloudomgevingen waarin modellen getraind moeten worden onder een strikt governance-beleid.
4. Breng compute naar de data
Privacy en security zijn intussen zo belangrijk dat we moeten evolueren van een beleid op basis van opslagstructuur naar een beleid gebaseerd op datatype. En dat kan alleen met classificatie en tagging. Eén optie is alle data verplaatsen naar een centrale plek voor analyse. Dat zou public cloud kunnen zijn. Maar aangezien data ‘zwaartekracht’ heeft en bovendien log en duur is om te verplaatsen, moeten we naar een andere oplossing kijken door compute naar de data te brengen.
Compute is immers licht en wendbaar. Breng daarom de rekenkracht naar de data, zodat alles lokaal kan worden gecategoriseerd.
5. Zorg voor een platform dat data en compute combineert
Om dit goed te doen, heb je een platform nodig dat geavanceerde berekeningen op een uniforme manier uitvoert. In plaats van te kiezen tussen data en compute, moet het beide naadloos kunnen combineren, van edge tot cloud.
Wie dit goed aanpakt, zal zijn wereldwijde databeer ondanks de groeiende complexiteit toch onder controle krijgen.

De auteur is Manosiz Bhattacharyya, CTO bij Nutanix
