Oppbevaring av data er en viktig del av en organisasjons informasjonshåndtering. Datasjøer og datavarehus brukes til dette formålet. Hovedforskjellen mellom dem er hvordan dataene er lagret i dem.
Datasjø (eng. Data Lake) er en enorm mengde rå og ustrukturerte data med udefinerte formål. Et datavarehus er et lager av strukturerte, filtrerte data opprettet for et bestemt formål.
Datasjø
Datasjø fungerer som et knutepunkt som sentraliserer organisasjonsdata samlet fra en rekke kilder til en enkelt logisk plattform. Denne muliggjør konsistent styring av store datamengder.
Den kan lagre alle typer data, fra ustrukturerte slik som tekstdokumenter eller bilder, til semi-strukturert, f.eks. hierarkisk webinnhold eller strengt strukturert - rader og kolonner i relasjonsdatabaser.
Datainnsjøer er best egnet for organisasjoner som trenger å fremlegge mye data til partene inn og ut av organisasjon. Denne måten å lagre informasjon på lar deg:
- Redusere ressurser: Tradisjonelle systemer prøver å passe alt inn i en enkel modell og kaster bort tid på å behandle data som skal ikke brukes. I en datasjø oppstår et slikt behandlingsbehov kun når informasjonen skal brukes.
- Få tilgang til data: Gir tilgang til data.
- Å øke effektiviteten: Datasett trenger ikke å definere data skjematisk, noe som gjør dataoverføringen, prosjektering og planleggingsprosesser enklere og raskere.
Teknologier som vi bruker:
- Microsoft Azure Data Lake Analytics;
- Microsoft Azure Data Lake Storage;
- Red Hat Open Data Hub;
- Apache Hadoop;
- Apache Kafka;
- Apache Spark;
- Apache Superset;
- JupyterHub.
Plattformer som vi bruker:
- Amazon Cloud;
- Microsoft Azure;
- IBM Cloud.
Datavarehus
I et datavarehus lagres informasjon fra mange kilder ved å slå den sammen til en enkelt kube og om nødvendig transformeres og analyseres i ulike seksjoner.
For eksempel lagrer en organisasjon informasjon om ansatte, deres lønn, opprettede produkter, kunder, salg og fakturaer i datavarehuset. Ved spørsmålet om kostnadsbesparende tiltak, vil en analyse av alle disse dataene være nødvendig.
Evnen til å ta operative beslutninger basert på de ulike dataelementene som behandles, er en sentral datavarehustjeneste.
Dermed kan et datavarehus kalles et analytisk datavarehus, der strukturerte data lagres i flerdimensjonale datakuber. Datavarehuset samler inn og lagrer data fra en eller flere kilder slik at de raskt kan analyseres for å få forretningsinnsikt. De er definert før analysen begynner for å gjøre den ekstremt raskt.
Teknologier som vi bruker:
- Microsoft SQL Server;
- Microsoft SQL Server Analysis Services;
- Microsoft SQL Server Integration Services;
- Microsoft SQL Server Reporting Services;
- Oracle Database;
- Oracle Data Integrator.