Viikon konsulttikysymys: Mikä on Data Lake?

Webscale Oy • 17. helmikuuta 2021

Mikä on Data Lake?

Data Lake on yksinkertaisesti tapa kerätä ja säilyttää suuria määriä dataa esimerkiksi analytiikkaa tai koneoppimista varten. Data Lake:ssa tallennettavan datan formaattia ei ole etukäteen määritelty, vaan samaan varastoon voidaan tallettaa esimerkiksi raakadataa erilaisista sensoreista ja rakenteellista dataa tietokantasovelluksista.

Koska dataa ei tallennusvaiheessa tarvitse käsitellä, on datan tallentaminen Data Lakeen nopeaa ja halpaa, ja dataa voidaankin kerätä suuria määriä siltä varalta, että sitä tarvitaan myöhemmin johonkin. Jos datan tallentaminen ei ole riittävän suunnitelmallista, eikä tallennettua dataa dokumentoida riittävästi, on vaarana Data Laken muuttuminen Data Swampiksi. Tällöin dataa olisi kyllä olemassa, mutta sen löytäminen ja hyödyntäminen on hankalaa tai mahdotonta.

Jari Avikainen
Data Engineer, Cloud Architect, konsultti

Viimeisimmät kirjoitukset

AWS DevOps Agent
8. joulukuuta 2025
AWS:n DevOps Agent on autonominen virtuaalinen on-call-tiimikaveri, joka tutkii häiriöt automaattisesti, kokoaa tilannekuvan useista järjestelmistä ja ehdottaa korjauksia keventäen SRE-tiimien kuormaa.
4. joulukuuta 2025
AWS tuo uudenlaista joustavuutta palveluihin yhdistämällä serverless-mallin ja perinteisen instanssihallinnan. Uudistus hämärtää rajaa Lambdan ja EC2:n välillä, kun funktiot voidaan ajaa valituilla instanssityypeillä AWS:n edelleen hoitaessa skaalauksen ja ylläpidon.
24. marraskuuta 2025
Deploying software on EC2 instances nowadays feel like going backwards in time - most of the applications would be usually preferably deployed as Docker containers or serverless functions.
18. kesäkuuta 2025
Kesäkuun alussa suuntasimme aurinkoiseen Tukholmaan AWS:n järjestämään Partner Summitiin ja sitä seuranneeseen Summit -päätapahtumaan.
Lisää kirjoituksia