[dexonline] Despre tichete

Mihai Barbulescu b12mihai at gmail.com
Tue Oct 18 17:41:24 EEST 2011


2011/10/18 Catalin Francu <cata at francu.com>:
> Salut Mihai,
>
> Da, pe #223 l-am definitivat eu. Acum sunt în stadiul de colectare de
> feedback de la cei 7-8 autori care deja au scris aplicații care se
> sincronizează folosind unul din protocoalele vechi.

E bine, ințial înțelesem că a fost început dar nu și terminat.

> De #243 Crawler de texte românești se ocupa Bogdan Casu, dar ultima
> oară am comunicat cu el pe 6 septembrie. Nu știu dacă a investit mult
> timp. Voi îl cunoașteți / țineți legătura cu el? Înclin să zic că e ok
> să-l preia altcineva, iar pentru Bogdan are balta pește, avem 200+
> tichete :-)

Da, îl cunoaștem, am lucrat la CDL-ul de anul trecut cu el, e înscris
pe acest mailing list, dacă are noutăți să le spună aici să știm ce
facem.

> Pentru #241 Depistare automată a clonelor, API-ul de la Google pare
> perfect. Ar fi bine ca scriptul să caute și prin definiții și să ia un
> text de 10 cuvinte-cheie lungi, că dacă facem hard-code la un text,
> unealta noastră poate fi fentată dacă clona îi interzice lui Google să
> crawleze acea definiție. Deci este nevoie de o interacțiune minimă cu
> baza noastră de date.

E bine atunci. Dar cum putem rezolva problema dacă deținătorul acelui
site interzice crawlarea definiției? Singura șansă este așa cum ai
zis: luăm 8-10 cuvinte din orice definiție și le căutăm pe Google ...
i-a indexat, perfect ... ce rezultă memorăm și căutăm dacă există în
acea pagina (sau site) vreun link către www.dexonline.ro. Există
posibilitatea ca unele site-uri să aibă pe o singură pagină, undeva,
menționat: baza de date preluată de pe www.dexonline.ro ...


-- 
Fiecare are scopul lui in lumea asta nebuna


More information about the dexonline mailing list