28
sep

Snowflake – Cloud Data Platform

Snowflake is in 2012 opgericht met als doel om een volledig cloud based platform te bieden: een Datawarehouse As A Service. In normale gevallen wanneer je je BI stack naar de cloud wil verplaatsen word je vaak geconfronteerd met veel lastige keuzes en een heel ecosysteem in de cloud wat je zelf nog moet beheren en waar je ook veelal op hogere kosten gejaagd wordt doordat je de benodigde resources niet eenvoudig kan uitzetten wanneer je ze niet nodig hebt.

Doordat Snowflake is ontwikkeld als een volledig cloud based DataWarehouse As A Service zal Snowflake een groot deel van deze taken van je overnemen, zodat je daadwerkelijk je tijd kan steken in het inrichten van je Data platform en het uitvoeren van analyses.

Snowflake draait op de drie grote Cloud platformen momenteel, sinds 2014 op AWS, sinds 2018 op Azure en in 2019 zijn ze begonnen met het uitrollen van hun diensten op Google, dus onafhankelijk van waar je momenteel je data hebt staan zal het een relatief eenvoudige stap zijn om je data in een Virtual Datawarehouse van Snowflake onder te brengen.

De Snowflake architectuur bestaat uit de volgende drie lagen:

  • Opslag
    • Op het moment dat je data importeert naar Snowflake wordt deze in een gecomprimeerd columnar based formaat opgeslagen in een cloud storage account naar keuze, momenteel worden AWS, Azure en Google ondersteund.
    • Snowflake zorgt voor het afhandelen van de meta data, bestandsgrootte, ordening en statistieken van de data, hierdoor is dit een extra factor waar je als eindgebruiker geen rekening mee hoeft te houden.
    • De Data is ook niet direct zichtbaar voor de eindgebruiker, maar is te benaderen met behulp van SQL.
    • Data kan eenvoudig en geautomatiseerd opgehaald worden om opgeslagen te worden met behulp van SnowPipe.
  • Compute
    • De rekenkracht die gebruikt wordt door Snowflake zijn gehost bij je Cloud provider naar keuze en zijn ondergebracht in “Virtual Warehouses”.
    • Deze Virtual Warehouses kunnen automatisch aan en uit gezet worden en zullen alleen compute gebruikten wanneer deze daadwerkelijk gebruikt worden. Op deze manier zal je niet op kosten wordt gejaagd wanneer je de rekenkracht niet nodig hebt. Ook zullen deze Virtual Warehouses geen clusters delen, dus ze zullen elkaar nooit in de weg zitten.
    • Ook worden alle queries die gebruikt worden voor een bepaalde periode opgeslagen in de cache om ze zo beschikbaar te maken zonder extra compute nodig te hebben. Hierdoor kan je ook kosten besparen doordat veel gebruikte queries uit de cache opgeroepen worden. De opslag tijd van deze cache is afhankelijk van de tier van de diensten die je afneemt.
  • MetaData en Management
    • Bovenop de compute en storage lagen zit nog een laag en deze zorgt voor de rest van de facetten die je nodig hebt om je virtual warehouses te managen en je data te bewerkten en beschikbaar te maken, den hierbij aan metadata management, authenticatie, query optimalisatie en toegangsbeheer.
    • Deze worden allen door Snowflake beheerd en draaien op de achtergrond in de compute resources in de door je organisatie gekozen cloud omgeving.

Voor meer informatie over Snowflake kunt u contact opnemen met ons Sales team via 088-5882200

Geen reacties

Leave a Comment

Your email address will not be published. Required fields are marked *

Contact