Poptavka pro fulltextu

Lubos Kaspar kaspar at cnb.cz
Wed Nov 15 14:25:08 CET 2000


> Date: Mon, 13 Nov 2000 19:54:32 +0100
> From: Jan Havlicek <havlicek at vse.cz>
> Subject: Re: Poptavka pro fulltextu
> To: net at cs.felk.cvut.cz
>
> Pavel Tyrner wrote:
> > ...
> > interMediaText umi prochazet pouze Web, ktery je nekde zadan, neumi
> > prochazet vsechny Weby v cele zone .cz. Mozna se pletu a je nejaka finta
> > (mne neznama), jak se to da udelat, ale na Webu Oraclu je jasne uvedeno, ze
> > muze skenovat konkretni URL.
> > Jak ale udelat, aby zkontroloval i nam nezname WWW stranky?
>
> *** Hmm.. to je zajimavy pozadavek. Jak by to melo fungovat? Si ty URL
> vycuca z prstu? Napada me nekolik reseni:
>
> 1) projd nameserver pro .cz a na vsechny zaznamy se zkusi zeptat, jetsli
> se ten stroj bavi na portu 80 (celkem prace)
>
> 2) zacne nejak nahodne generovat url a zkouset je.. asi nerealny. Proste
> nejak to zacinat musi.
>
> Jinak na fulltext pouzivam UDMSarch (http://mysearch.udm.net/), s
> cestinousi to poradi. Ale jak by to vydejchalo cely .cz web to fakt
> nevim.

Osobne povazuji podobne snahy za velikasske, a to napr. z techto duvodu:

1. Zdaleka ne vsechny WWW-servery poslouchaji na zakladnim portu 80.
2. Zdaleka ne vsechny WWW-servery, ktere "hovori" cesky, jsou v TLD cz.
3. Lecktere ciste textove informace (hlavne casto klicove nadpisy) jsou
   casto ve forme obrazku, tedy textove necitelne.
4. Jakz takz snesitelne by mozna bylo prohledavat v ramci <head>
   nejake "keywords" v <meta> (nebo tak nejak se to snad jmenuje),
   jenze na jejich spravne uvadeni asi dost webmasteru kasle.
5. Dost informaci je zakukleno v ruznych Javach a podobnych
   "vymozenostech", takze taky textove hure pristupne.
6. Neni jasne, co udelat napr. v pripadech, kdy prosta reference, popr.
   refresh, framing (spec. cloaking) vede mimo .cz - jeste brat nebo uz ne?
7. Ne vsechny zajimave informace v Internetu jsou pristupne pres http.

Podle me je takovy zamer zcela nerealny a navic jde ve vztahu k teto
konferenci (alespon mirne) o off-topic.
--
                                                Lubos Kaspar



More information about the net mailing list