Analysera Mera: september 2011

2011-09-27

Filterbubbla

Eli Pariser har myntat uttrycket och skrivit boken "The Filter Bubble" som beskriver baksidan av att använda algoritmer för att personalisera tjänster och system till användarna. Det han i princip vill säga är att ens egna beteende förstärks av personaliseringsalgoritmer som filtrerar bort information som vi antas inte tycka om. Detta innebär att vi inte får se den andra sidan av informationen eller utmanas med andra åsikter än våra egna. Eli gav ett Ted Talk under våren som är sevärt.

2011-09-11

9 data mining lagar

Fritt översatt och tolkat från Tom Kahbaza's artikel som finns i sin helhet på
http://khabaza.codimension.net/index_files/9laws.htm

1st Law of Data Mining – "Business Goals Law":
Data mining ska inte ses som en teknologi utan en process för att lösa affärsproblem eller uppnå affärsmål.

2nd Law of Data Mining – "Business Knowledge Law":
Data mining är en iterativ process där kunskap om verksamheten är kärnan i alla steg.

3rd Law of Data Mining – "Data Preparation Law":
Även fast data har genomgått en gedigen ETL process består mer än halva data mining processen att förbereda data för att kunna bygga modeller.

4th Law of Data Mining – "NFL-DM":
NFL-DM står för "There is No Free Lunch for the Data Miner". Det finns ingen genväg till att hitta rätt modell för en given tillämpning utan den kan bara upptäckas genom experiment.

5th Law of Data Mining – "Watkins’ Law":
Det finns alltid mönster. Har man affärsrelevant data finns det alltid mönster som är användbart, även om det inte är det man väntade sig.

6th Law of Data Mining – "Insight Law":
Data mining algoritmer kan hitta mönster som den mänskliga hjärnan inte klarar av att se. Männsikan kan med hjälp av data mining få insikt i datat och lösa affärsproblem.

7th Law of Data Mining – "Prediction Law":
En prediktiv modell tillför ny information lokalt baserad på generalisering av de mönster som algoritmen hittar.

8th Law of Data Mining – "Value Law":
Värdet av data mining resultatet bestäms inte av noggrannheten eller stabiliteten av prediktiva modeller utan av nyttan som tillförs till verksamheten.

9th Law of Data Mining – "Law of Change":
Alla mönster kan ändras eftersom både omvärlden och förståelsen för datat förändras.

2011-09-07

BI Stacken

En ganska bra bild över BI-stacken.

2011-09-04

NoSQL

Jag tycker det är väldigt intressant att följa debatten kring hela NoSQL hypen. Senast den här veckan hade Computer Sweden en stor artikel. Några av mina tankar...

En viktig aspekt med NoSQL databaserna är att de är gjorda för sitt specifika ändamål, man behöver ingen datamodell och man vet i förväg hur data kommer accessas. Jämför detta med en SQL databas där man i förväg inte har en aning om hur datat modelleras eller kommer att accessas. Man gör antaganden om hur datat kommer att efterfrågas och skapar t.ex. index. Man kan givetvis använda en SQL databas som key-value store, eller för att lagra dokument, men det är självklart att NoSQL databaser optimerade för sin uppgift gör jobbet bättre än en generell SQL databas skulle göra på en likvärdig modell.

Avsaknaden av en datamodell kan dock vara ett problem. Har man många applikationer med olika objektmodeller som mappar mot datalagret är det lätt att man får motsägelser i datat. Det finns inte heller något standardiserat gränssnitt för NoSQL databaser. Om man flera applikationer i olika programmeringsspråk kan detta kräva att man bygger ett eget accesslager ovanpå datalagret för att få ett gemensamt gränssnitt mot alla applikationer. Arbetet har dock påbörjats med UnSQL men det återstår att se hur det fortlöper.

Som vanligt så finns det tyvärr ingen silver bullet som löser alla problem. Alla databaser har sin styrka, må det vara en rad/kolumnbaserad relationsdatabas, grafdatabas, dokumentdatabas eller key-value store. Det viktiga är att förstå de olika alternativen för att kunna välja den bästa lösningen. Hur många svenska företag sitter på hybridlösningar i sitt warehouse idag?