Data « Martin Koksrud Bekkelund

Data

20.08.10

Det er utrolig hva man kan avdekke med store mengder riktige data. Her reflekterer jeg over fordelene og ulempene ved tilgang til store datamengder.

Data og informasjon

I følge Wikipedia er data

Meningsnøytrale forekomster av tekst, tall eller lignende bærere av verdier som kan inngå i eller bidra til å forme informasjon.

Se på følgende tall:

11,89
11,73
11,53
11,09
10,99
10,89
10,83

Tallene gir ingen mening fordi de er data og data alene gir ingen mening. I det øyeblikk jeg forteller deg at dette er dieselprisene på min lokale bensinstasjon gjennom en uke, forvandles data til informasjon. Data er altså grunnlaget som danner informasjon.

Vi kan si at data er en variabel, det vil si at den kan variere, selv om enkelte data kan være statiske eller konstante. Dieselprisen er en variabel, lengden på et sekund konstant (i hvert fall her omkring). Data er typisk et resultat av målinger — for eksempel dieselprisen jeg har observert, eller lagrede data — for eksempel dieselprisen bensinstasjonen lagrer i sitt datasystem.

Alene gir data ingen mening, satt i system blir data til informasjon som gir mening.

Hva er riktige data?

Riktige data er, ikke overraskende, data som faktisk er riktige, og ikke bare vi tror er riktige. I tidligere tider trodde man jorda var flat. Nå vet vi at den er rund. Hvis man på den tiden skulle slått opp i data om jordens form, ville man i datasettet funnet flat, mens det riktige ville vært rund.

Tilgang til riktige data er viktig fordi vi med feilaktige data får feilaktig informasjon og således tar feilaktige beslutninger. Tenk bare hvilke enorme datamengder som ligger til grunn for de beslutninger vi tar hver dag. Er alle dine beslutninger riktige? Svaret er nei. Nei, fordi datagrunnlaget som danner beslutningsgrunnlaget ditt er feil. Du besitter altså feil informasjon.

Feilaktige data oppstår som følger av en av to årsaker:

Våre målinger eller faktaantakelser er feil, ref. om jorden er flat eller rund
Noen har manipulert datagrunnlaget

I tidligere tider, da man trodde at jorda var flat, skjedde det tilsynelatende ingen skade som følger av det. Ingen turde seile jorda rundt, i frykt for å seile over kanten. En mindre heldig, og langt verre konsekvens var at kritikere som hevdet at jorda var rund, og ikke flat, ble brent på bålet.

Hva skjer hvis vi i dagens samfunn tar feilaktige beslutninger på feil grunnlag? Kanskje fengsler vi uskyldige mennesker fordi vi tror de er potensielle terrorister. Kanskje tar politikerne feil beslutninger som angår vårt lands ve og vel.

God og dårlig bruk av data

Statistisk sentralbyrå, som er en av Norges mest spennende datakilder, kan helt sikkert fortelle masse om god og dårlig bruk av data. Mindre datamengder har større potensiale for feil, mens store datamengder blir mer riktige. Det er svært utfordrende å ta beslutninger på små datafragmenter, spesielt hvis man ikke kan forsikre seg om at de er riktige. Det kan du blant annet lese om i boken SuperFreakonomics, hvor forfatterne beskriver utfordringene en bank står overfor når de leter etter terrorister i sine kundedata.

Personvernutfordringer

Jeg elsker data! Spesielt store datamengder, de kan man kose seg med i timesvis, se på, lage grafer av, se på normaliteter og abnormaliteter og trender. Data kan fortelle oss fantastisk mye, gitt at de er riktige.

Imidlertid finnes det et punkt hvor datagrunnlaget turns evil. Det skjer i det øyeblikk man samler inn eller tilknytter data som gir uheldig informasjon. Det kan eksempelvis være å knytte til seg data som kobler personer til dataene. Å se på data om reisende med kollektivnettet i Oslo må være utrolig spennende, men i det øyeblikk man knytter personinformasjon til alle reisene, slik at man kan se hvem som har reist hvor og når, går datasettet hen og turns evil.

Uttrykket turning evil er avledet fra menneskers atferd i forhold til hva de kan gjøre med dataene. Fra å være mennesker med redelige hensikter, lar enkelte seg dessverre raskt friste til å misbruke tilgangen til dataene. Enten ved å tilegne seg informasjon til seg selv, eller ved å selge den til andre. Historien viser dessverre at det ikke er et spørsmål om hvis, men om når, bare dataene er interessante nok og vedkommende har det rette insentivet. Mennesker er verken gode eller onde, men er mennesker — og mennesker svarer på insentiver.

Ingen bedrift eller organisasjon som samler inn data kan sikre seg mot misbruk. Det er dessverre en illusjon vi har blitt forledet til å tro. Alt kan hackes, manipuleres og omgås, og før eller siden vil noen få tilgang til dataene og misbruke de, enten i form av hackere eller utro tjenere.

Enhver bedrift eller organisasjon som samler inn data, må i derfor heller sikre seg at data som samles inn ikke inneholder opplysninger med høy risiko for misbruk. I disse tider hvor enkelte myndigheter ser terrorister hvor enn man snur og vender seg, bør det være et tankekors både for myndighetene selv og for oss som velger dem eller betaler deres lønn.

Generelt

Som leser kan du gi et bidrag til produksjonen, til driften og til å skaffe utstyr til testing for å sikre regelmessige, uavhengige artikler, tester og vurderinger av høy kvalitet.

Gi et bidrag

Husk å abonnere på nyhetsbrevet, det er gratis og du får alle artikler rett i innboksen.

Nyeste artikler

Enda flere artikler? Besøk arkivet.

Om Martin

Dette er Martin Koksrud Bekkelund sitt private nettsted, hvor han skriver om forbrukerteknologi, teknologiledelse og hvordan teknologi, samfunn og politikk påvirker hverandre. Martin er innehaver av konsulentselskapet Nivlheim. Les mer...

Martin Koksrud Bekkelund