[upstream-challenge] [Anul 4] Apache Mahout 1180

Dan Filimon dangeorge.filimon at gmail.com
Sun May 5 22:55:50 EEST 2013


Salut!

Pentru că mai urmează câteva, aș vrea să vin cu câteva detalii despre
Mahout [3]. Mahout este o bibliotecă de învățare automată peste Hadoop,
scopul fiind dezvoltarea algoritmilor scalabaili la seturi mari de date.

Lucrez la Mahout pentru proiectul meu de licență, care este legat de
clustering-ul aproximativ al datelor așa încât să rezulte rezultate foarte
similare cu algoritmu k-means dar într-o formă map-reduce care să necesite
doar o iterație.
Am fost destul de activ în ultimele luni și sunt acum committer acum.

Această contribuție [commit: 1] este la Mahout [issue: 2].

Problema era că în clasa Multinomial care face sampling-ul unor obiecte cu
diferite probabilități, ajustam probabilitățile în timpul iterației, lucru
care ar trebui să fie posibil, dar care declanșa un
ConcurrentModificationException, fiindcă în cazul particular în care
probabilitatea de selecție a unui obiect era setată pe 0, acesta era scos
din structura iterată.

Am reparat asta, iterând printr-o altă structură internă și în plus, am
prevenit posibilitatea de introducere a elementelor null (era teoretic
interzisă, dar practic neverificată).

În plus, am adăugat două teste pentru aceste cazuri.

E în regulă prezentarea? Mai adaug explicații?

[1]
https://github.com/apache/mahout/commit/bc1b16df8f8a82ab2e80282b248d029e49f49a86
[2] https://issues.apache.org/jira/browse/MAHOUT-1180
[3] http://mahout.apache.org/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.rosedu.org/pipermail/upstream-challenge/attachments/20130505/da4f7338/attachment.html>


More information about the upstream-challenge mailing list