cas...

Petr Nachtmann petrnach at natur.cuni.cz
Tue Jul 21 10:52:32 CEST 1998


> > > > Co si pote na mem serveru vezme HOTBOT, ALTAVISTA ci KOMPAS?
> > >    To je velice jednoduche -- kodovani defaultni, jake si
> > > vyberete. Ja osobne bych si vybral ASCII.
> > Ja mam Windows-1250 ...
>    To je docela pekne vysvetleni, proc Altavista ignoruje cokoli krome
> ISO-8859-1. Situace je neprehledna, trh neni az zas tak velky, zapadni
> Evrope staci ISO-8859-1, tak nez se s tema desitkama kodovani pro ty
> ostatni babrat, lepsi je je proste ignorovat... az pujde o nejake rozumne
> penize, tak to tam dodelame. :- )

Pocitejme spolu: 5 nebo 7 ruznych kodovani cestiny, podobny pocet
kodovani rustiny, radeji nechci vedet, jak to funguje ve Vietnamu...

Spider by mel toto vsechno detekovat? Lide casto kodovani neuvedou a cpou
proste 'to svoje', takze by bylo nutne pouzivat nejakou heuristiku. :(

IMHO vyhodnejsi je vymyslet algoritmy na

1) zjistovani (i)relevantnich dokumentu, aby i na 'hloupy' dotaz vracela
rozumne vysledky

2) vylepseni takoveho toho nahledu/naznaku obsahu dokumentu. Altavista ma
pry prijit s necim novym od Inxightu


PN







More information about the net mailing list