<div dir="ltr">Salut!<br><div class="gmail_quote"><div dir="ltr"><div><br></div><div>Pentru că mai urmează câteva, aș vrea să vin cu câteva detalii despre Mahout [3]. Mahout este o bibliotecă de învățare automată peste Hadoop, scopul fiind dezvoltarea algoritmilor scalabaili la seturi mari de date.<br>
</div><div><br></div><div>Lucrez la Mahout pentru proiectul meu de licență, care este legat de clustering-ul aproximativ al datelor așa încât să rezulte rezultate foarte similare cu algoritmu k-means dar într-o formă map-reduce care să necesite doar o iterație.</div>
<div>Am fost destul de activ în ultimele luni și sunt acum committer acum.</div><div><br></div><div><div>Această contribuție [commit: 1] este la Mahout [issue: 2].</div><div><br></div><div>Problema era că în clasa Multinomial care face sampling-ul unor obiecte cu diferite probabilități, ajustam probabilitățile în timpul iterației, lucru care ar trebui să fie posibil, dar care declanșa un ConcurrentModificationException, fiindcă în cazul particular în care probabilitatea de selecție a unui obiect era setată pe 0, acesta era scos din structura iterată.</div>
<div><br></div><div>Am reparat asta, iterând printr-o altă structură internă și în plus, am prevenit posibilitatea de introducere a elementelor null (era teoretic interzisă, dar practic neverificată).</div><div>
<br></div><div>În plus, am adăugat două teste pentru aceste cazuri.</div><div><br></div><div>E în regulă prezentarea? Mai adaug explicații?</div><div><br></div></div><div>[1] <a href="https://github.com/apache/mahout/commit/bc1b16df8f8a82ab2e80282b248d029e49f49a86" target="_blank">https://github.com/apache/mahout/commit/bc1b16df8f8a82ab2e80282b248d029e49f49a86</a></div>
<div>[2] <a href="https://issues.apache.org/jira/browse/MAHOUT-1180" target="_blank">https://issues.apache.org/jira/browse/MAHOUT-1180</a></div><div>[3] <a href="http://mahout.apache.org/" target="_blank">http://mahout.apache.org/</a></div>
</div>
</div><br></div>