Quantcast
Channel: robertsahlin.com » Svenska
Viewing all articles
Browse latest Browse all 13

Hadoop Summit 2013 dag 2

$
0
0

Eric Baldeschwieler berättar om både Hadoop och Hortonworks. Får intrycket att Cloudera är störst men att Hortonworks har större momentum, plus att de har en mycket mer tilltalande affärsmodell ur ett kundperspektiv. I den stabila versionen av Hadoop 2.0 så kommer map-reduce vara ett av flera sätt att bearbeta data och responstiden kommer minska drastiskt och vi kommer få se mer SQL-liknande interaktioner. Eric förkunnar att "Hortonworks Data Platform v 2.0 alpha released today".

Därefter en intressant paneldiskussion m representanter från eBay, HSBC och Neustar. Samtliga berättar om den stora besparingen i kostnad/TB som Hadoop möjliggör och att det varit avgörande för införandet av Hadoop i stor skala. Det bekräftar att besparingen är den "trojanska hästen" för att få go på en Hadoop-implementation i ett företag även om det finns många andra vinster och strategiska skäl till att implementera Hadoop, men de är svårare att få igenom finansavdelningen. Panelens önskelista: data governance, direct access to production cluster from IDE, interactive queries, easier to operate and maintain clusters to reduce OPEX.

Panelens råd: 
- Just give hadoop a try and get hands-on experience.
- Test, start small and grow as you learn.
- Be brave and trust your engineers, let them take risks to figure out solutions to issues.

Därefter blev det 3 sessioner med maskininlärning. Först ut var Ted Dunning som visade hur man med Hadoop + Mahout + Solr ganska enkelt kan applicera maskininlärning på Big Data för att skapa rekommendationer. Därefter visade Datameer hur man skapar linjära modeller i Hadoop mha deras verktyg, såg smidigt ut om man är beredd att investera tid och pengar i ytterligare ett verktyg. Därefter var det dags för en av de sessioner jag sett fram emot mest, "Scaling big data mining infrastructure" av Jimmy Lin (Twitter). Jag blev inte besviken, om jag blir hälften så bra data scientist är jag helnöjd. Jimmy gav många bra tips på vad man bör göra för att undvika att lägga massor av tid på "data cleansing" och istället fokusera på data mining. Dessutom visade han hur man kan använda Pig för maskininlärning med modeller som baseras på SGD, det mesta också beskrivet här (PDF). 

Jimmy Lin HS2013

Sista sessionen jag gick på var HDInsight on Azure, Microsofts molntjänst för Hadoop. Visst, det fattas en del saker och man vill ju gärna se en GA-release med SLA innan man kör sitt produktionskluster i Azure. Men det ser lovande ut, kan nog vara språngbrädan för Hadoop som pilotprojekt i enterprisesegmentet. Hoppas det inte dröjer för länge.

Ser fram emot att ta del av de inspelade sessionerna, för det var svårt att välja spår emellanåt.

För dig som läser och är intresserad av Hadoop kan jag varmt rekommendera Hadoop Summit till nästa år. Hoppas verkligen att jag får se fler från Sverige nästa år. Hör gärna av dig om du vill prata Hadoop, ffa data mining och analys av stort data.


Viewing all articles
Browse latest Browse all 13

Trending Articles