Analysera Mera: januari 2012

2012-01-20

BizIntels officiella blogg

I veckan lanserade vi BizIntels officiella blogg där

"Vi kommer att blogga generellt om branschen och rådande trender, men även ge handfasta tips kring produkter och metoder som vi använder oss av i vårt dagliga arbete."

Detta innebär att jag kommer att posta inlägg rörande Pentaho och MicroStrategy på BizIntels blogg istället för här och fokusera denna på mer generella BI inlägg samt data mining och maskininlärning.

2012-01-16

ML demonstration

Maskininlärningsstudenter på Carnegie Mellon som demonstrerar på G20 mötet i Pittsburg 2009. Foto: Arthur Gretton

2012-01-11

Igår lanserade Google sin nya söktjänst "Search, plus Your World" där de inte längre bara rangordnar sidor på innehållet utan lyfter fram Google+ innehåll från ditt personliga nätverk. De har tidigare lanserat Social Search som söker efter innehåll i ditt personliga nätverk. Dessa tjänster är ännu inte integrerade med varandra, men som de själva säger i deras blogginlägg så är detta bara början. Potentialen är oändlig med allt data som Google sitter på och det blir spännande att se hur detta spår utvecklas. Den nya söktjänsten kommer endast att fungera om man är inloggad på Google och söker på engelska på https://www.google.com. Det fungerar ännu inte för mig, men förhoppningsvis blir det tillgängligt inom några dagar så man får testa.

2012-01-07

Mer av Stanford 2012

Stanford University har utökat antalet online kurser som ges gratis under våren 2012. Kursstart varierar beroende på vilken kurs man är intresserad av, men allt kör igång under januari och februari. Nedan är de kurser som ges inom datavetenskap. Intressant att notera är att av de tre kurser som gavs under hösten är det endast maskininlärningskursen som ges igen. Kul med stort intresse för just det området...

2012-01-05

Pentaho Metadata Scripting

Jag bloggade tidigare om hur man kan använda en Metadata (Custom) datakälla för att skapa en MQL fråga dynamiskt. I Report Designer 3.9.0, som kommer att ingå i 4.5 suiten, kommer det inte längre vara nödvändigt att gå den omvägen. Det kommer nämnligen att finnas stöd för detta i den vanliga Metadata datakällan. Thomas Morgner beskriver det mer i detalj här.

MicroStrategy Data Mining Datasets

När man ska använda sig av data mining funktionaliteten i MicroStrategy krävs det en del arbete med att förbereda datat. Datat ska ha en väldigt "simpel" struktur som MicroStrategy nämner i dokumentationen men detta innebär att man måste skapa en massa mått innan man kan sätta igång. Man kan nämligen inte använda attribut för att gruppera mått som används i data mining rapporter utan man måste skapa filtrerade mått för varje grupp. Låt säga att man till exempel vill analysera sina kunder och ha med variabler för hur mycket pengar varje kund spenderar i respektive produktgrupp och man har 40 produktgrupper. Då kräver detta att man skall skapa 40 filtrerade mått ... många mått blir det! Det gör det väldigt opraktiskt att utveckla och testa olika representationer av datat för att se vad som ger bäst resultat. När man däremot har kommit fram till en modell som man har tänkt använda i produktion är det mer rimiligt att mappa upp alla dessa mått en gång för alla, såvida man inte har en modell som kräver hundratals eller tusentals mått i MicroStrategy. Då bör man nog se efter andra alternativ eller enklare representation av datat. Det man vill uppnå är i alla fall ett dataset som har endast ett attribut, ett antal mått som är oberoende variabler som skall prediktera ett sista mått som är den beroende variabeln (vid regression och klassifiering).

Mer information och detaljer kring detta finns i MicroStrategys dokumentation "AdvancedReporting.pdf" under kapitel 13 "Data Mining Services".

2012-01-04

PMML 4.1

DMG (Data Mining Group) har släppt version 4.1 av PMML standarden. Läs mer på DMGs hemsida:

Netflix och MicroStrategy

Har arbetat mycket med Netflix dataset tidigare, men hade faktiskt ingen aning vad Netflix själva använder för programvara. Enligt denna artikel består deras BI-stack av Hive med Hadoop, HDFS och MapReduced som snurrar på totalt 50 stycken Amazon S3 noder. Ovanpå det använder de MicroStrategy för rapporteringen.

2012-01-03

Weka 3.7.5

I den senaste releasen av Weka som släpptes i slutet av 2011 fanns det två paket som var extra intressanta.

Weka Server
Den gamla RMI baserade server miljön är övergiven och i och med 3.7.5 presenterades ett nytt servlet baserat serverpaket.
Tidsserier
Tidsserieanalyspaketet introducerades 3.7.3 och i och med tilläget i 3.7.5 med stöd för "hål" i tidsserierna känns det mer komplett.