2011-10-31

Stanford vecka 3

Förra veckan handlade om klassificering och framför allt logistisk regression och konceptet regularisering för att hantera overfitting. Inlämningsuppgifterna var väldigt lika veckan innan med implementaioner av kostnadsfunktioner och gradienter. Denna vecka användes dock Octaves funktion fminunc för iterativ optimering av parametrarna istället för någonting egen implementerat. Denna vecka blir det artificiella neuronnät, vilket blir lite mer intressant.

2011-10-27

Pentaho Business Analytics 4.1 GA

Idag släpptes Pentaho 4.1 och en av de första märkbara skillnaderna är att den inte längre heter Pentaho Business Intelligence utan Pentaho Business Analytics. Deras undertext i loggan har dessutom bytts ut från "Open Source Business Intelligence" till "Powerful Analytics Made Easy". Förutom detta så är nog den stora nyheten stödet för externa minnescachar. Pentaho Business Analytics har inbyggt stöd för Infinispan (JBoss Data Grid) och Memcached. Att använda en extern och dessutom distribuerad cache ger givetvis bättre prestanda men ger även Pentaho ett svar på "in-memory" hypen som råder just nu.

2011-10-26

Faktabaserad världssyn


En intressant intervju med Hans Rosling på Google Think Quarterly om att ha en faktabaserad syn på omvärlden.

2011-10-24

Analytics 2011

Idag är det julafton för alla SAS användare då årets Analytics konferens drar igång. Med tanke på dagens väder här i Stockholm hade jag gärna anslutit till konferensen som i år äger rum i Orlando, Florida.

2011-10-21

R och Hadoop


Revolution Analytics har utvecklat tre paket som integrerar R med Hadoop.
  • rmr - integrerar Hadoop MapReduce funktionalitet in i R
  • rhdfs - integrerar filhantering i HDFS in i R
  • rhbase - integrerar den distribuerade databasen HBase in i R
Bilden är tagen från en presentation över RHadoop som man hittar här.

2011-10-18

Stanford vecka 2

Andra veckans uppgifter handlar om multipel regression. Algoritmerna som gås igenom är en iterativ och en exakt lösningsmetod, brantaste lutningsmetoden respektive normalekvationen. De första inlämningsuppgifterna var följande:
  1. Uppvärmningsövning
  2. Kostnadsfunktion (för en variabel)
  3. Brantaste lutningsmetoden (för en variabel)
  4. Variabelnormalisering
  5. Kostnadsfunktion (för multipla variabler)
  6. Brantaste lutningsmetoden (för multipla variabler)
  7. Normalekvationen
Alla uppgifterna var väldigt mycket tillrättalagda och krävde inte speciellt mycket implementering. Både brantaste lutningsmetoden och normalekvationen är förvisso relativt lätt att implementera i ett verktyg som Octave. Intressantast var hur de har löst inlämningsförfarandet. Med uppgifterna kommer ett Octave script som innehåller en submit funktion. När man kör den submitfunktionen för en inlämningsuppgift så anropas funktionen som man själv har implementerat med testdata, och det som returneras postas upp för rättning till deras server. Man får omgående feedback huruvida man blivit godkänd eller inte, då svaret man skickar in automatiskt verifieras. Snyggt gjort! Hoppas på något mer spännande nästa vecka...

2011-10-14

MicroStrategy och Hadoop

I veckan hade Cloudera en press release att de tillsammans med MicroStrategy har utvecklat en VLDB drivrutin för att kunna generera optimerad HiveQL och utnyttja Hadoop funktionalitet såsom t.ex. MapReduce ramverket. Hela press releasen finns här.

2011-10-11

Stanford vecka 1

Såg den första veckans videoföreläsningarna och gjorde övningarna från maskininlärningskursen idag. Första veckan går igenom enkel linjär regression och både föreläsningarna och materialet var väldigt grundläggande. I och för sig ganska förväntat med tanke på att det inte krävs några förkunskaper även om jag kan tycka att det behövs för att kunna tillgodo göra sig vissa delar. Innehållet verkar i alla fall vara väldigt likt deras YouTube kurs (http://www.youtube.com/playlist?list=PLA89DCFA6ADACE599) med lite anpassningar för att bli interaktivt. Alla inlämningsuppgifter ska implemeteras i Octave och första uppgiften kommer nästa vecka. Med tanke på den låga nivån på kursen får jag se hur mycket tid jag orkar lägga, även om jag är lite nyfiken på inlämningsuppgifterna längre fram.

2011-10-10

Maskininlärning på Stanford

Idag börjar maskininlärningskursen på Stanford. Veckornas upplägg verkar vara följande

1. Introduction to Machine Learning. Univariate linear regression. (Optional: Linear algebra review.)
2. Multivariate linear regression. Practical aspects of implementation. Octave tutorial.
3. Logistic regression, One-vs-all, Regularization.
4. Neural Networks, backpropagation, gradient checking.
5. Support Vector Machines (SVMs) and intuitions. Quick survey of other algorithms: Naive Bayes, Decision trees, Boosting.
6. Practical advice for applying learning algorithms: How to develop, debugging, feature/model design, setting up experiment structure.
7. Unsupervised learning: Agglomerative clustering, K-means, PCA, when to use each. (Optional/extra credit: ICA).
8. Anomaly detection. Combining supervised and unsupervised.
9. Other applications: Recommender systems. Learning to rank (search).
10. Large-scale/parallel machine learning and big data. ML system design/practical methods. Team design of ML systems.

2011-10-09

Watson

Måndagen den 3 oktober sändes dokumentären "Världens smartaste dator" i SVTs Vetenskapens Värld. Den handlar om IBMs program Watson som med hjälp av maskininlärning lär sig spela Jeopardy och till slut slår de mänskliga stormästarna. Det är en ganska bra populärvetenskaplig dokumentär som övergripande beskriver maskininlärning och artificiell intelligens. Dokumentären finns tillgänlig på SVT Play t.o.m. 10 oktober med svensk textning efter det kan man se den på YouTube i klippen nedan, då tyvärr uppdelad i fyra delar.



2011-10-06

MicroStrategy och MySQL Community Server

För prototypning och POCs tycker jag att MySQL CE är väldigt smidig att arbeta med. Den är gratis, den funkar på Linux och Windows och det är enkelt att scripta upp allting. När man kör MicroStrategy Connectivity Wizard så finns det dock bara ett alternativ för att köra MySQL och det är "MicroStrategy ODBC Driver for MySQL Wire Protocol" vilket inte fungerar med community versionen. Men om man kollar i "Certified and Supported Configurations" ser man att MySQL community server stöds både för meta data och data warehousing. För att använda MySQL community server som datakälla i MicroStrategy måste man installera MySQLs ODBC Driver version 5.1.8 och sedan lägga till en ny DSN via MicroStrategy Connectivity Wizard och då välja "Other Relational Databases" eller lägga in en ODBC data källa direkt i Windows Kontrollpanel.

2011-10-04

Oracle Exalytics

I går på OpenWorld presenterade Larry Ellison Oracles nya produkt Exalytics. Produkten är ett paket som täcker hela BI stacken från hårdvara till slutanvändargränssnitt, men det som är intressant är att den bygger på en kombination av Oracles TimesTen minnesdatabas och Oracles Essbase analysdatabas för att kunna erbjuda en minneslösning för både radbaserat och kolumnbaserat relationsdata samt kuber. Ledordet för utvecklingen ska ha varit parallellisera allt och produkten ska ha en genomgående parallell struktur. För den som vill läsa Oracles white paper som ger en teknisk introduktion till Exalytics hittar det här eller så kan man kika på lite highlights från Larry nedan.