[upstream-challenge] [Anul 4] Apache Mahout 1216

Dan Filimon dfilimon at apache.org
Fri May 17 12:15:07 EEST 2013


Acest commit [1] rezolvă [2]. Adaugă un nou searcher (care trebuia să intre
înainte...) bazat pe locality sensitive hashing.

Ideea e că doi vectori similari vor avea hashuri similare și distanța
Hamming între hash-uri e corelată cu distanța cos între vectori.

Searcher-ul trece prin vectorii între care se caută și calculează distanța
Hamming până la hash-ul query-ului. În funcție de un threshold adaptiv se
calculează distanța efectivă între vectori (ideea fiind că distanța durează
mai mult).
Astfel se evită calculul pentru în jur de 75% din puncte.

[1]
https://github.com/apache/mahout/commit/cd35caab87f759408957b671bb0cad59ec6c07c6
[2] https://issues.apache.org/jira/browse/MAHOUT-1216
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.rosedu.org/pipermail/upstream-challenge/attachments/20130517/61d41efa/attachment.html>


More information about the upstream-challenge mailing list