[upstream-challenge] [Anul 4] Apache Mahout 1180

Daniel Baluta daniel.baluta at gmail.com
Mon May 6 22:53:08 EEST 2013


2013/5/5 Dan Filimon <dangeorge.filimon at gmail.com>:
> Salut!
>
> Pentru că mai urmează câteva, aș vrea să vin cu câteva detalii despre Mahout
> [3]. Mahout este o bibliotecă de învățare automată peste Hadoop, scopul
> fiind dezvoltarea algoritmilor scalabaili la seturi mari de date.
>
> Lucrez la Mahout pentru proiectul meu de licență, care este legat de
> clustering-ul aproximativ al datelor așa încât să rezulte rezultate foarte
> similare cu algoritmu k-means dar într-o formă map-reduce care să necesite
> doar o iterație.
> Am fost destul de activ în ultimele luni și sunt acum committer acum.
>
> Această contribuție [commit: 1] este la Mahout [issue: 2].
>
> Problema era că în clasa Multinomial care face sampling-ul unor obiecte cu
> diferite probabilități, ajustam probabilitățile în timpul iterației, lucru
> care ar trebui să fie posibil, dar care declanșa un
> ConcurrentModificationException, fiindcă în cazul particular în care
> probabilitatea de selecție a unui obiect era setată pe 0, acesta era scos
> din structura iterată.
>
> Am reparat asta, iterând printr-o altă structură internă și în plus, am
> prevenit posibilitatea de introducere a elementelor null (era teoretic
> interzisă, dar practic neverificată).
>
> În plus, am adăugat două teste pentru aceste cazuri.
>
> E în regulă prezentarea? Mai adaug explicații?

Este ok. Am adăugat contribuţia ta.

Thanks!


More information about the upstream-challenge mailing list