20.08.10 • 9 kommentarer
Det er utrolig hva man kan avdekke med store mengder riktige data. Her reflekterer jeg over fordelene og ulempene ved tilgang til store datamengder.
I følge Wikipedia er data
Meningsnøytrale forekomster av tekst, tall eller lignende bærere av verdier som kan inngå i eller bidra til å forme informasjon.
Se på følgende tall:
11,89
11,73
11,53
11,09
10,99
10,89
10,83
Tallene gir ingen mening fordi de er data og data alene gir ingen mening. I det øyeblikk jeg forteller deg at dette er dieselprisene på min lokale bensinstasjon gjennom en uke, forvandles data til informasjon. Data er altså grunnlaget som danner informasjon.
Vi kan si at data er en variabel, det vil si at den kan variere, selv om enkelte data kan være statiske eller konstante. Dieselprisen er en variabel, lengden på et sekund konstant (i hvert fall her omkring). Data er typisk et resultat av målinger — for eksempel dieselprisen jeg har observert, eller lagrede data — for eksempel dieselprisen bensinstasjonen lagrer i sitt datasystem.
Alene gir data ingen mening, satt i system blir data til informasjon som gir mening.
Riktige data er, ikke overraskende, data som faktisk er riktige, og ikke bare vi tror er riktige. I tidligere tider trodde man jorda var flat. Nå vet vi at den er rund. Hvis man på den tiden skulle slått opp i data om jordens form, ville man i datasettet funnet flat, mens det riktige ville vært rund.
Tilgang til riktige data er viktig fordi vi med feilaktige data får feilaktig informasjon og således tar feilaktige beslutninger. Tenk bare hvilke enorme datamengder som ligger til grunn for de beslutninger vi tar hver dag. Er alle dine beslutninger riktige? Svaret er nei. Nei, fordi datagrunnlaget som danner beslutningsgrunnlaget ditt er feil. Du besitter altså feil informasjon.
Feilaktige data oppstår som følger av en av to årsaker:
I tidligere tider, da man trodde at jorda var flat, skjedde det tilsynelatende ingen skade som følger av det. Ingen turde seile jorda rundt, i frykt for å seile over kanten. En mindre heldig, og langt verre konsekvens var at kritikere som hevdet at jorda var rund, og ikke flat, ble brent på bålet.
Hva skjer hvis vi i dagens samfunn tar feilaktige beslutninger på feil grunnlag? Kanskje fengsler vi uskyldige mennesker fordi vi tror de er potensielle terrorister. Kanskje tar politikerne feil beslutninger som angår vårt lands ve og vel.
Statistisk sentralbyrå, som er en av Norges mest spennende datakilder, kan helt sikkert fortelle masse om god og dårlig bruk av data. Mindre datamengder har større potensiale for feil, mens store datamengder blir mer riktige. Det er svært utfordrende å ta beslutninger på små datafragmenter, spesielt hvis man ikke kan forsikre seg om at de er riktige. Det kan du blant annet lese om i boken SuperFreakonomics, hvor forfatterne beskriver utfordringene en bank står overfor når de leter etter terrorister i sine kundedata.
Jeg elsker data! Spesielt store datamengder, de kan man kose seg med i timesvis, se på, lage grafer av, se på normaliteter og abnormaliteter og trender. Data kan fortelle oss fantastisk mye, gitt at de er riktige.
Imidlertid finnes det et punkt hvor datagrunnlaget turns evil. Det skjer i det øyeblikk man samler inn eller tilknytter data som gir uheldig informasjon. Det kan eksempelvis være å knytte til seg data som kobler personer til dataene. Å se på data om reisende med kollektivnettet i Oslo må være utrolig spennende, men i det øyeblikk man knytter personinformasjon til alle reisene, slik at man kan se hvem som har reist hvor og når, går datasettet hen og turns evil.
Uttrykket turning evil er avledet fra menneskers atferd i forhold til hva de kan gjøre med dataene. Fra å være mennesker med redelige hensikter, lar enkelte seg dessverre raskt friste til å misbruke tilgangen til dataene. Enten ved å tilegne seg informasjon til seg selv, eller ved å selge den til andre. Historien viser dessverre at det ikke er et spørsmål om hvis, men om når, bare dataene er interessante nok og vedkommende har det rette insentivet. Mennesker er verken gode eller onde, men er mennesker — og mennesker svarer på insentiver.
Ingen bedrift eller organisasjon som samler inn data kan sikre seg mot misbruk. Det er dessverre en illusjon vi har blitt forledet til å tro. Alt kan hackes, manipuleres og omgås, og før eller siden vil noen få tilgang til dataene og misbruke de, enten i form av hackere eller utro tjenere.
Enhver bedrift eller organisasjon som samler inn data, må i derfor heller sikre seg at data som samles inn ikke inneholder opplysninger med høy risiko for misbruk. I disse tider hvor enkelte myndigheter ser terrorister hvor enn man snur og vender seg, bør det være et tankekors både for myndighetene selv og for oss som velger dem eller betaler deres lønn.
Eksempelet ditt på gale data (jfr. flat jord) bygger også på gale data: http://en.wikipedia.org/wiki/Myth_of_the_Flat_Earth
Godt innlegg skrevet på en enkel og forståelig måte. Når det gjelder årsaken til at feilaktige data oppstår er vel også det semantiske aspektet en sentral årsak?
Dagens samfunn er preget av enorme mengder data og informasjon som stadig vokser. Det eksisterer store utfordringer relatert til hvordan man skal kunne utnytte dataenes og informasjonens potensial så effektivt som mulig. Distribusjon, deling, integrasjon og strukturering avhenger av kommunikasjon og samhandling, både mellom menneske, maskin, programmer og systemer.
Dette er meget komplekst fordi man legger ulike begreper og definisjoner til grunn, samhandlingen er basert på ulik semantikk som nødvendiggjør en form for ”oversettelse”. For å kunne overlevere informasjon fra ett sted til et annet, må både avsender og mottaker vite hva oversendelsen inneholder. Hvis avsender og mottaker ikke beskriver innholdet likt, er det grunnlag for misforståelser, selv om man faktisk legger den samme meningen i innholdet. Dette gjør seg gjeldene for både mennesker og maskiner.
Jeg jobber i en bedrift som leverer verktøy for elektroniske skjema, og dette er i hvert fall sentralt i vårt arbeid. Både de som er avsender av skjemaene og de som fyller ut må ha samme begrepsdefinisjoner for å sikre korrekt samhandling og høy datakvalitet.
Det er ingen tvil om at det semantiske aspektet, hvordan hver enkelt av oss tolker data, er en feilkilde. Dette er for øvrig noe vi har diskutert hjemme hos oss, hvordan datagrunnlaget kan fortelle en ting, mens f.eks. en forskningsrapport kan gi grunnlag for å tro eller tolke ting annerledes, enten det er bevisst eller ubevisst. Datagrunnlaget, gitt at det er riktig, lyver aldri. Vår oppfatning av det er derimot noe helt annet.
I tillegg til at feilaktige data kan oppstå er det viktig å være klar over at det kan være subtile ulikheter i hvordan man tolker data eller hva disse dataene faktisk beskriver. I sin enkleste form kan det være forvirring rundt hvordan en enhet er definert eller hvordan den måles.
Hvis man f.eks leser artikler om biler er det enkelte tall der man må påregne en viss feilmargin fordi effekt og dreimoment måles på ulike måter, og de færreste journalister ser ut til å skjønne hvordan verdiene faktisk måles og hvordan metode kommuniseres (eller ikke kommuniseres).
I “vår” verden har f.eks måling av trafikk til nettsteder alltid vært befengt med endel usikkerhet fordi det er ulike måter å telle sidevisninger på.
Bra påminnelse om hva ordet data egentlig betyr, og spesielt viktig er presiseringen av forskjellen på data og informasjon.
Dessverre er ordet data “stjålet” av en ny generasjon som bruker ordet som synonymt med datamaskin. Jeg grøsser litt hver gang jeg hører noen referere til “en data” – der de mener “en datamaskin”.
Dette er vel språkutvikling i praksis, men i likhet med den triste skjebnen til ordet “hacker” åpner dette for misforståelser når folk flest ikke lenger har et forhold til den opprinnelige betydningen av ordet.
Du har sikkert sett videoen jeg linker til under før, men det er interessant å se hvordan vi kan lære nye ting ved å bruke data på rett måte.
Med RSS kan du abonnere på nye kommentarer som postes til denne artikkelen.
Du kan legge igjen et trackback fra ditt eget nettsted ved å benytte trackback-adressen til denne artikkelen. Eventuelle tracback ser du under.
Enda flere artikler? Besøk arkivet.
Bekkelund.net er en blogg av Martin Bekkelund, hvor han lufter sine tanker om IT og IT-politikk. Martin arbeider til daglig som seniorrådgiver, foredragsholder og skribent i IT-bransjen, hvor han veileder bedrifter og organisasjoner i strategisk bruk av IT. Les mer...
© 1995-2012 Martin Bekkelund
Opphavsrett • RSS • Kontakt
Christer Solskogen
20. august 2010 9.44
«Uttrykket turning evil er avledet fra menneskers atferd i forhold til hva de kan gjøre med dataene» – hvordan kan det utrykket avledet sammenlignet med hva de kan gjøre med dataene?
(les: «i forhold til» betyr sammenlignet med)