Viikon konsulttikysymys: Mikä on Data Lake?

Webscale Oy • 17. helmikuuta 2021

Mikä on Data Lake?

Data Lake on yksinkertaisesti tapa kerätä ja säilyttää suuria määriä dataa esimerkiksi analytiikkaa tai koneoppimista varten. Data Lake:ssa tallennettavan datan formaattia ei ole etukäteen määritelty, vaan samaan varastoon voidaan tallettaa esimerkiksi raakadataa erilaisista sensoreista ja rakenteellista dataa tietokantasovelluksista.

Koska dataa ei tallennusvaiheessa tarvitse käsitellä, on datan tallentaminen Data Lakeen nopeaa ja halpaa, ja dataa voidaankin kerätä suuria määriä siltä varalta, että sitä tarvitaan myöhemmin johonkin. Jos datan tallentaminen ei ole riittävän suunnitelmallista, eikä tallennettua dataa dokumentoida riittävästi, on vaarana Data Laken muuttuminen Data Swampiksi. Tällöin dataa olisi kyllä olemassa, mutta sen löytäminen ja hyödyntäminen on hankalaa tai mahdotonta.

Jari Avikainen
Data Engineer, Cloud Architect, konsultti

Viimeisimmät kirjoitukset

22. huhtikuuta 2026
Webscale sai marraskuussa 2025 vahvistusta tiiminsä, kun Teemu Peräkylä aloitti Sales Executive roolissa. Tutustu Teemuun ja lue hänen kokemuksistaan ensimmäisiltä kuukausilta Webscalella.
8. huhtikuuta 2026
Pilvipalveluiden valinta ei ole pelkkä tekninen tai kustannuksiin perustuva päätös. Digitaalinen suvereniteetti korostuu, kun organisaatiot pohtivat datan sijaintia ja hallintaa. Tekstissä vertailemme hyperscalereita ja eurooppalaisia pilvipalveluita sekä sitä, miksi paras ratkaisu löytyy usein näiden yhdistelmästä.
29. tammikuuta 2026
AWS European Sovereign Cloud (EUSC) on nyt saatavilla ensimmäisellä regionilla. EUSC on erillinen kokonaisuus AWS:n tavallisesta commercial-pilvestä. Se on rakennettu tilanteisiin, joissa eurooppalainen regioni ei enää riitä, vaan vaatimukset koskevat myös palvelun operointia ja käyttöoikeuksia.
AWS Lambda durable functions
21. tammikuuta 2026
AWS julkaisi joulukuussa 2025 uuden Lambda durable functions -ominaisuuden. Tämä tuo Lambdaan pitkäkestoisen ja monivaiheisen suoritusmallin, jossa työ voidaan pilkkoa hallittaviin osiin ja suorittaa jopa vuoden ajan.
Lisää kirjoituksia