Portale, Wyszukiwarki, Katalogi...
W sytuacji gdy WWW oferuje dostęp do "wszystkiego, czyli niczego" pojawiły się portale, czyli miejsca w Sieci, które próbują pośredniczyć między zasobami i możliwościami Internetu a potrzebami i zainteresowanianiami masowego użytkownika.
Zwartość portali można podzielić na trzy części:
* przedsięwzięcia usługowo-reklamowe, jak poczta, czat, prywatne strony WWW, serwisy informacyjne, porady, sprzedaż on-line itd. * własne katalogi stron WWW czyli zbiory odsyłaczy, redagowane przez ludzi na podstawie zgłoszeń lub własnego wyszukiwania, * dostęp do wyszukiwarki stron WWW - prezentowania wyników wyszukiwania w bazie danych tworzonej automatycznie na podstawie analizy zasobów Sieci przez silniki wyszukiwania i programy - roboty, zwane też pająkami WWW.
Katalogi
Katalogi stron WWW redagowane przez ludzi mają tę podstawową wyższość nad wyszukiwaniem automatycznym, że radykalnie ograniczają nadmiar informacji, oddzielając treści przypadkowe od wartościowych. Wszelkie wady katalogów w stosunku do automatycznego wyszukiwania, jak subiektywność, ograniczony zasięg czy arbitralny podział na kategorie, mogą być kompensowane tym, że każdy zasób wskazany w katalogu jest przynajmniej elementarnie sensowny i dorzeczny w stosunku do oczekiwań użytkownika.
Cechą najlepszych katalogów jest dbałość o proporcjonalną strukturę katalogu, czyli elastyczne rozwiajnie coraz bardziej szczegółowych podkategorii, na miarę faktycznej jego zawartości. W ten sposób, użytkownik zawsze ma do czynienia z dającą się ogarnąć liczbą pozycji (zwykle do kilkudziesięciu), niezależnie od tego jak szczegółowo sprecyzował swoje zainteresowania. Wskazując na kategorię bardzo ogólną, ma do czynienia tylko z podkategoriami, potem podkategoriami i konkretnymi pozycjami, a na koniec samymi pozycjami. Poniższy przykład zaczerpnięto z katalogu ODP:
kategoria podkategorie pozycje -------------------------------------------------------------- Science 24 - Science/Math 29 7 Science/Math/Statistisc 10 63 Science/Math/Statistisc/Software 12 128 Science/Math/Statistisc/Software/Graphing soft. - 40
Najwiekszym katalogiem opracowywanym przez żywych ludzi jest Open Directory Project (dmoz.org) oparty na pracy 50 tysięcy wolontariuszy z całego świata. Zawiera odsyłacze i krótkie opisy ponad 3,8 miliona witryn, uprządkowanych w 460 tysiącach podkategorii. Zawartość katalogu zasila także bazę danych szeregu największych wyszukiwarek.
Open Directory Project
ODP jest administrowany przez ośrodek w firmie Netscape działający w duchu open source na zasadach sformułowanych w "kontrakcie" ze społecznością Internetu (dmoz.org/socialcontract.html). Inną nazwą dla ODP jest DMOZ (od Directory Mozilla), wyrażająca pokrewieństwo z innym projektem open source zainicjowanym przez Netscape -- przeglądarką Mozilla. Wyszukiwarki: działanie robotów
Wyszukiwarka (search engine) działa następująco. Robot, program analogiczny do przeglądarki internetowej, łączy się w pewnym adresem WWW i pobiera dokument HTML. Dokument jest analizowany przez oprogramowanie zainstalowane na serwerze wyszukiwarki. Jego treść podlega indeksacji i jest zapisywana do bazy danych, zaś zawarte w nim odsyłacze są osobno rejestrowane i służą do kierowania zapytań o następne dokumenty. W ten sposób robot "przemieszcza się" od dokumentu do dokumentu i od witryny do witryny.
Z zawartości tekstowej pobranych dokumentów (czyli po odfiltrowaniu oznakowania) tworzy się dynamicznie indeks, to jest listę słów ze wskazaniem adresów dokumentów w jakich wystąpiły. Taka baza danych jest następnie publikowana na serwerze wyszukiwarki. Użytkownik może przesłać do tego serwera pytanie o dokumenty zawierające określone słowa, a ten w odpowiedzi przesyła listę adresów dokumentów.
W odróżnieniu od katalogów redagowanych przez ludzi, działanie wyszukiwarki jest z założenia niemal całkowicie automatyczne i "bezobsługowe". Dzięki temu, w oparciu o odpowiednio wydajne łącza i komputery, wyszukiwarka może ewidencjonować dokumenty z szybkością i wydajnością niedostępną ludziom, a także operować na bazie obejmującej zawartość nawet miliardów dokumentów.
Ten prosty schemat działania bywa też często stosowany lokalnie, w ramach zasobów jednego serwera, czy sieci lokalnej, dając odwiedzającym drugie, obok odsyłaczy zawartych w dokumentach, narzędzie dotarcia do interesujących treści.
Taktyka robota
Robot sieciowy musi działać o wiele inteligentniej niż zwykła przeglądarka sterowana przez człowieka. Inaczej mówiąc, kierowany jest skomplikowanymi algorytmami działania, które stanowią tajemnicę handlową jego właścicieli, są ciągle doskonalone i decydują o wartości wyszukiwarki.
Przede wszystkim, robot musi tak filtrować dokumenty by pobierać odpowiedni typ danych, zwłaszcza taką treść tekstową, która najlepiej oddaje treść strony z pominięciem wszelkich danych, które nie będą indeksowane, jak skrypty, arkusze stylów, grafika, dane wykonywalne oraz całe oznakowanie dokumentów. Jednak część istotnych danych zawarta jest właśnie w oznakowaniu: element "title", różne elementy "meta", a także np. artybuty "alt" opisujące załączoną grafikę.
Robot musi unikać dokumentów generowanych dynamicznie. Wtedy bowiem dochodzi do interakcji programu-robota, który automatycznie wysyła zapytania o dokumenty, z programem -- generatorem stron działającym równie automatycznie. Nie ma gwarancji, że nie dojdzie do zapętlenia nieskończonych zapytań i nieskończonych odpowiedzi o ten sam dokument czy zasób dokumentów. Specjalistyczne bazy danych"głębokiego Interentu" często dostępne są przez WWW właśnie za pośrednictwem programowego generowania stron WWW z informacjami z bazy. Mogą one być zbyt obszerne i monotematyczne, wtedy robot powinien ograniczyć się do kilku wstępnych dokumentów.
Jeśli dostęp do kolejnych stron witryny wiąże się z wypełnieniem formularza, podaniem hasła, odczytaniem komunikatu o błędzie itp., robot nie będzie w stanie odpowiednio zareagować i musi umieć się wycofać, bo nie wolno mu blokować serwera bezustannymi zapytaniami, co naruszałoby funkcjonowanie Sieci.
Robot musi dokonywać wyborów jakimi odsyłaczami podążać, by działać najbardziej efektywnie. Nie są to tylko preferencje techniczne ale także strategiczne, oparte na wiedzy o tym, co już zostało zindeksowane, na ile warto ponowić indeksację (czy i kiedy zasoby serwera były aktualizowane) i jak ocenić treść i adresy znalezionych odsyłaczy w świetle preferowanych kierunków i treści.
Robot powinien honorować zakazy dostępu robota do pewnych zasobów (zapisane w pliku "robots.txt" każdego serwera) oraz ewentualne wskazówki co do indeksowania lub pozyskiwania odsyłaczy zawarte w samych dokumentach (odpowiedni element "meta" w dokumentach HTML)
WYSZUKIWANIE
Sieciowa gra w znajdowanego
Racja bytu wyszukiwarek jest taka sama jak innych usług komercyjnego (ale bezpłatnego) Internetu. Setki milionów użytkowników Sieci tworzy ogromny popyt na usługi wyszukiwawcze i są sposoby, by to wykorzystać dla osiągnięcia zysków. Może to być zwykła reklama na stronach wyszukiwarek, odpłatne promowanie w wynikach wyszukiwania pewnych adresów (tzw. odsyłacze sponsorowane), promowanie stron sklepów internetowych, odsprzedaż czy dzierżawa bazy danych portalom i tym podobne.
Niezależnie od sposobów przetworzenia bezpłatnego korzystania z wyszukiwarek na zyski, strategicznym celem wyszukiwarki jest, podobnie jak portali, osiągnięcie jak najwyższej i trwałej oglądalności wśród użytkowników Sieci. By zadowolić klientów, wyszukiwarka musi być funkcjonalna, a przede wszystkim skuteczna, czyli odnajdywać jak najtrafniej te zasoby, których użytkownik szuka.
Jak łatwo zauważyć, jest do interes dokładnie przeciwstawny do interesu większości właścicieli witryn WWW, (niekoniecznie czysto komercyjnych), by ich zasoby znajdowały się w wynikach wyszukiwania jak najczęściej i to nawet niezależnie od tego, czego użytkownik właściwie szukał.
Dodatkowo, w obu tych dążeniach chodzi nie tyle o to, by wyniki w ogóle uwzględniały jakiś adres, lecz o jak najwyższe pozycje na liście wyszukanych dokumentów. Lista odszukanych dokumentów jest zwykle długa (użytkownik leniwie zadaje ogólne pytania, a dobra wyszukiwarka posługuje się ogromną bazą dokumentów), zatem uwaga użytkownika koncentruje się naturalnie na jej początku. Setna czy tysięczna pozycja wśród wyników wyszukiwania nie ma właściwie szans na zauważenie.
Wyszukiwarki porządkują listę wyników wedle stopnia ich trafności względem podanego kryterium. W tym celu stosują skomplikowane algorytmy analizy treści zgromadzonych dokumentów (a także innych dokumentów zgromadzonych w bazie, np. zawierających odsyłacze do ocenianego dokumentu). Autorzy zasobów z kolei, starają się włożyć w dokument taką treść, która zapewni jak najwyższy ranking wśród dokumentów znajdowanych w odpowiedzi na najczęściej zadawane pytania.
W sumie mamy do czynienia z pewnym rodzajem internetowej gry komputerowej, w której obie strony usiłują przewidzieć działania "przeciwnika", by go przechytrzyć dla osiągnięcia swoich celów. Zapewne nie wszyscy użytkownicy WWW uczestniczą w niej równie gorliwie, wielu zapewne w ogóle nie zdaje sobie sprawy z jej istnienia, ale jej efekty dotyczą wszystkich, bo kształtują obraz i dostępność zasobów WWW. Pole gry
Pole do tej gry wyznacza koncepcja techniczna WWW, tworzona w perspektywie wymiany dokumentów w świecie akademickim. Identyfikacja dokumentów opierała się na oczywistym założeniu, że dokumenty będą najściślej i najtrafniej opisane przez samych autorów. Język HTML przewiduje miejsce na dane o dokumencie pomocne w automatycznej ocenie treści. Oto najważniejsze z nich:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0//EN" "http://www.w3.org/TR/REC-html40/strict.dtd"> <html>
<head> <meta http-equiv="content-type" content="text/html; charset=ISO-8859-2"> <meta name="language" content="pl"> <meta name="description" content="Krótki opis treści dokumentu"> <meta name="keywords" content="słowa,kluczowe,oddzielone,przecinkami"> <meta name="robots" content="follow, index"> <title>Tytuł dokumentu</title> </head>
<body> <h1>Tytuł pierwszego rzędu</h1> <p>Początek właściwego tekstu, pierwsze 100-200 znaków ... ... ... słowa ... kluczowe ... gdziekolwiek ... w treści ... dokumentu ... ... ... <img src="obrazek.gif" alt="opis obrazka"> ... </body>
</html>
Schemat dokumentu HTML z elementami ważnymi dla maszynowej analizy jego treści
Dokument HTML składa się z dwóch części: elementu head (nagłówka) i elementu body (dokument właściwy). Najważniejszym i jedynym wymagalnym elementem nagłówka (head) dokumentu jest tytuł (element title).
Elementy meta są opcjonalną informacją o dokumencie i mogą służyć różnym aplikacjom i zastosowaniom. Nie ma ograniczeń w opatrywaniu dokumentu parametrami o dowolnym zastosowaniu i dowolnej treści, byle ujęte były w pary w postaci:
<meta name="parametr" content="wartość>"
Tradycyjnym sposobem opisu dokumentu dla wyszukiwarek są dwa elementy meta, "meta/description" -- czyli miejsce na krótki opis dokumentu, oraz "meta/keywords" zawierający listę słów kluczowych. Zakłada się, że zawartość "meta/description" będzie, obok tytułu, prezentowana na na liście wyszukanych dokumentów, zaś słowa i frazy zawarte w "keywords" będą podstawą automatycznego dopasowywania dokumentu do zapytań.
"Dokument HTML" a "strona WWW"
Dokumenty HML to wyłącznie tekst (ciąg kodowanych znaków). Pewne fragmenty tego ciągu służą do opisania właściwej treści dokumentu i są z nią przemieszane. Łącznie stanowią oznakowanie dokumentu, co nadaje prostemu tekstowi pewne ramy strukturalne i zawiera informacje o pożądanym sposobie interpretowania. W dokumencie HTML traktowanym jako ciąg znaków łatwo odróżnić co jest oznakowaniem (ciągi znaków zawarte zawsze między znakami < i > wraz z nimi samymi), a co właściwym tekstem (między znakami > i <).
Język HTML -- to formalne reguły dotyczące oznakowania, czyli język służący do wyrażenia w samym dokumencie sposobu jego interpretowania. Deklaracja typu dokumentu (<!DOCTYPE ... ) wiąże dokument z konkretną wersją języka.
Strona WWW nie powinna być mylona z dokumentem HTML, bo nie jest ona tekstem (ciągiem zakodowanych znaków) lecz obrazem na ekranie, powstającym w wyniku interpretacji dokumentu HTML. Strona WWW może także składać się z wielu dokumentów HTML. Obecnie strony WWW często zawierają też elementy zewnętrzne wobec dokumentu HTML (przekaz graficzny, multimedialny, dynamiczny) wykonywane przez programy współpracujące z przeglądarką (plug-in) lub w nią wbudowane. Język HTML przewiduje obecność takich elementów, ale ich nie dotyczy. Dzisiejsze popularne przeglądarki są rozbudowanymi pakietami obsługi wielu protokołów i typów danych, wśród których wyświetlanie oznakowanego tekstu jest jedną z mniej skomplikowanych funkcji.
Różnica między dokumentem HTML a stroną WWW nie sprowadza się do formalnych definicji, ale ma bardzo praktyczne konsekwencje. Zarówno sam dokument, jak i jego interpretacja mogą być niepoprawne ("niegramatyczny" HTML lub przeglądarka nie stosująca się do HTML). Poprawne mogą być różne interpretacje tego samego dokumentu -- bo to zależy kto i w jakim celu go interpretuje (np. jakie dodatkowe protokoły i typy danych interpretuje). Kwestią szczególną jest interpretacja niepoprawnych dokumentów (popularne przeglądarki mają dużą tolerancję na błędy, tzn. interpretują również błędy oznakowania). Wprawdzie norma HTML określa, co przeglądarka "musi", co "może", a co "powinna", ale oczywiście bardziej dotyczy to dokumentów poprawnych niż błędnych. Zatem brak naocznych błędów na stronie WWW nie świadczy ani o poprawności dokumentu HTML, ani o poprawnej czy nawet zamierzonej jego interpretacji. Tym bardziej o interpretacji przez inną przeglądarkę w innych systemach komputerowych.
Język HTML przewiduje, że dokumenty HTML przeznaczone są do interpretacji nie tylko przez przeglądarki graficzne WWW, lecz także przeglądarki tekstowe, czytniki Braille'a, syntetyzatory mowy czy roboty wyszukiwarek. Wtedy wynikiem interpretacji nie jest "strona WWW".
Wyszukiwarki interpretują dokument HTML w ten sposób, że zwykle pomijają oznakowanie (oprócz wybranych elementów), patrząc na cały dokument jak na czysty tekst. Roboty wyszukiwarek zobowiązane są czytać i reagować na przeznaczony dla nich element "meta/robots".
Pierwsza runda rozgrywki między autorami dokumentów HTML a wyszukiwarkami polegała na tym, że autorzy zaczęli wpisywać do dokumentów słowa kluczowe o treści mało związanej z ich zawartością, za to odpowiadającej popularnym zapytaniom do wyszukiwarek. Mogli to robić tym łatwiej, że słowa kluczowe, jako metaopis dokumentu, nie są wyświetlane na stronach WWW. Na przykład zaopatrzenie strony głównej sklepu papierniczego w tytuł Super-Portal i wielokrotnie powtórzone słowa kluczowe: Madonna, Britney Spears, Harry Potter, kartki świąteczne, encyklopedia, mp3, playstation 2 itd., itp., mogło skutkować umieszczeniem dokumentu w wielu wynikach wyszukiwania, a w konsekwencji powodować ruch na serwerze przekładający się na wzrost zakupów on-line.
W odpowiedzi wyszukiwarki zaczęły albo w ogóle ignorować słowa kluczowe, albo sprawdzać, czy podane słowa kluczowe i słowa opisu dokumentu powtarzają się faktycznie w treści dokumentu. Powtórzenia słów kluczowych, ich ilość nieproporcjonalna do wielkości dokumentu, i podobne niespójności powodowały albo usunięcie zasobów z bazy wyszukiwarki i wpisanie adresu na "czarną listę" albo przynajamniej znaczne obniżenie rankingu, zaniechanie aktualizacji lub ograniczenie liczby indeksowanych dokumentów.
Wiele prostych sposobów oszukiwania wyszukiwarek sprowadza się do takiej konstrukcji dokumentów HTML, że co innego widzi wyszukiwarka analizująca tekst, a co innego widać na strone WWW (cloaking -- przemycanie "pod płaszczykiem"). Treść adresowaną dla wyszukiwarki można ukryć pisząc białym kolorem na białym tle na dole strony. Witryna może być poprzedzona stroną wstępną, skąd następuje przekierowanie na różne dokumenty HTML zależnie od tego, czy o dokumenty pyta robot czy przeglądarka WWW.
Specjaliści od wyszukiwania sięgnęli zatem po bardziej obiektywne mierniki warości dokumentów niż ich samoopisanie. Dysponując bazą danych, mogą badać odsyłacze prowadzące do dokumentu i na podstawie ich ilości ustalać jego ranking. Odpowiedzią specjalistów od promocji stron WWW było zakładanie "farm", czyli szeregu serwerów z zasobami klientów nasyconymi odsyłaczami między sobą. Odsyłacze nie miały treści a jedynie adres, były więc niewidoczne w przeglądarkach. Klienci zaś płacili duże pieniądze za "pozycjonowanie" ich zasobów na pierwszych miejscach wyników zapytań o typowe usługi czy produkty. Kontrposunięciem wyszukiwarek jest wnikliwe badanie treści odsyłaczy, a nie tylko adresu, oraz badanie topologii Sieci dla wykrycia "farmerskich" praktyk.
Chociaż takie i podobne sztuczki, mające na celu oszukiwanie wyszukiwarek, dotyczą zapewne znikomej części zasobów WWW, to koncentrują się tam, gdzie ruch w Sieci i jego przełożenie na pieniądze są najintensywiejsze. Powstał rynek usług "pozycjonowania stron WWW", nastawiony na bogatych klientów komercyjnych, gdzie wykorzystuje się zarówno naiwność robotów sieciowych, jak i naiwność klientów skłonnych wierzyć w cudowne tricki. Ekonomia dot-comów. Ostra walka o popularność w WWW, a w tym o najwyższe "pozycjonowanie" w wynikach wyszukiwarek wiązała się z tzw. "ekonomią dot-comów", kiedy to, w ostatnich latach ubiegłego tysiąclecia, zauroczenie Amerykanów nową technologią zaowocowało dziwnymi zjawiskami ekonomicznymi. Firmy "nowej technologii" (chętnie występujące pod nazwą ich adresu w WWW: "firma-kropka-com", stąd "dot-comy") tym wyżej były notowane na giełdzie, im większe przynosiły straty, wydając pieniądze na cudowne tchnologie, które już wkrótce miały zmienić obraz gospodarki. Produkcję użytecznych dóbr i usług o wartości weryfikowanej na rynku ich konsumpcji, udało się na chwilę zastąpić tworzeniem oczekiwań i prognoz samospełniających się na rynkach finansowych. Statystyki ilości kliknięć na stronach WWW zapowiadać miały ilość klientów "nowej gospodarki", dlatego tłumaczyły się wprost na notowania giełdowe tych firm.
Jak być znalezionym? Czyli jak dać się odszukać...
Walka, jaka toczy się na szczytach komercyjnego WWW, ma skutki dla wszystkich wyszukujących i wyszukiwanych. Coraz bardziej wyrafinowane stają się algorytmy analizy stron WWW oraz sterowania robotem, wyczulające wyszukiwarkę na nadużycia w Sieci, czyli spam.
Za brak precyzji bądź tylko gorliwość w tworzeniu dokumentów HTML, ich autor może być zakwalifikowany przez wojujące automaty jako złośliwy oszust, którego trzeba ukarać zaniżeniem rankingu lub wręcz usunięciem z bazy i listy adresów do odwiedzenia przez robota. Jak w każdej wojnie, tu też są niewinne ofiary, a nawet odpowiedzialność zbiorowa. Jeśli jakiś zasób ulokowany jest w domenie lub u dostawcy, gdzie wyszukiwarka znalazła "spam", będzie ona wietrzyć podstęp we wszystkich sąsiednich zasobach lub może całą domenę wpisać na swoją czarną listę.
Tajemnicą wyszukiwarek jest statystyka słów kluczowych jakie najczęściej wpisują jej użytkownicy. Jej znajomość znacznie ułatwiłaby "pozycjonowanie stron WWW". Jeszcze bardziej tajne (i często zmieniane) są algorytmy sterujące robotem i analizą dokumentów. Rzeczywiście, ich jawność mogłaby spowodować, że pierwsze sto pozycji wyszukania w odpowiedzi na sto najczęstszych zapytań byłoby kompletnie zmanipulowane.
Istnieje jednak ogólna wiedza o tym, co wyszukiwarka może brać pod uwagę i czego najbardziej nie lubi. Są porady samych właścieli wyszukiwarek i wyniki różnych eksperymentów. Na ich podstawie można wyliczyć warunki, jakie powinna spełniać idealna publikacja w WWW, nie budząca żadnych wątpliwości i przejrzysta dla robota. Oczywiście ewentualny jej wysoki ranking jest jedynie jedynie potencjalny, bo wszystko zależy ostatecznie od tego, ilu użytkowników Sieci jest rzeczywiście zainteresowanych jej treścią i jak precyzyjnie formułują swoje zapytania.
Generalna recepta właścicieli wyszukiwarek jest taka, by twórcy publikacji w ogóle nie robili nic "pod wyszukiwarki", za to postarali się, by ich publikacja jak najlepiej pasowała do norm starego, "akademickiego" Internetu i interesów użytkowników. "Wysiłek poświęcony na optymalizację stron WWW dla wyszukiwarki bywa celowy do pewnego punktu, po przekroczeniu którego może okazać się przeciwskuteczny" Wytyczne firmy Inktomi, www.inktomi.com/products/web_search/spampolicyfaq.html
Tym punktem jest punkt widzenia użytkownika, który jest zbieżny ze strategią wyszukiwarek. Twórcom stron WWW lansującym zasoby swojej witryny przypomina się, że użytkownicy szukają na nich swoich zasobów. Powinny one zatem zawierać oryginalną treść, rzetelnie opisaną i oznakowaną zgodnie ze standardami i dobrą praktyką, koncentrując się na przejrzystości i dostępności dla użytkownika, rezygnując z efektów reklamowych realizowanych często dodatkowym kosztem użytkownika (cierpliwość, opłata za połączenie). Ogólna koncepcja i wykonanie witryny
* Wyszukiwarki unikają indeksowania dokumentów tworzonych dynamicznie przez program działający na serwerze.
Adresy takich dokumentów mają zwykle postać:
http://www.witryna.com.pl/cgi-bin/program?p1=w1&p2=w2&p3=w3...
gdzie cgi-bin/program? to wywołanie programu generującego dokumenty, a px oraz wx to kolejne pary parametrów i wartości oddzielone znakiem &, przekazujące do tego programu kryteria tworzenia dokumentu.
Roboty zwykle albo omijają takie adresy, albo ograniczają adres do miejsca wystąpienia znaku zapytania, co często skutkuje pobraniem tylko strony głównej takiej witryny. Na przykład może być zindeksowana strona o adresie
http://www.witryna.com.pl/default.asp
natomiast robot niechętnie zapyta o
http://www.witryna.com.pl/default.asp?section=DOKUM&ID=123
Generatory stron WWW mają zastosowanie, gdy zasoby mają postać bazy danych z samej ich natury (np. katalog śrubek) lub na bazie danych oparty jest szerszy, elekroniczny system publikacji (database publishing). Jeśli celowe jest zapewnienie wyszukiwarkom dostępu do takich dokumentów, najlepiej jest go użyć w ten sposób, by okresowo tworzył i aktualizował statyczne strony zamiast działać bezpośrednio na serwerze. Można też tak skonfigurować serwer, by adresy stron dynamicznych prezentował jak strony statyczne, np.:
http://www.witryna.com.pl/program/p1/w1/p2/w2...
* Wyszukiwarki ignorują inne języki niż HTML. Jeśli więc bez skryptów witryna jest nieczytelna i nie zapewnia dostępu do kolejnych zasobów, to będzie raczej zignorowana. * Strona główna nie może zawierać automatycznego przekierowania do innych zasobów
<meta http-equiv="refresh" content="0 ; url=http://www.innyserwer.com.pl">
Przekierowania traktowane są jako próba wprowadzenia w błąd użytkowników dla ściągnięcia ruchu na swoją stronę. * Najlepiej, by nazwa domeny była jak najktótsza i nie wskazywała na domeny wirtualne lecz osobny IP. Skomplikowane subdomeny typu moja.strona.na.serwerze.com.pl traktowane bywają jako osobny serwer i rodzą podejrzenie o manipulację przekierowaniami. * Wyszukiwarki obsługują układy ramkowe stron WWW (frameset), lecz ich nie lubią. Strony przeznaczone do indeksacji przez wyszukiwarkę powinny być właściwie opisane w nadrzędnym dokumencie definiującym ramki. * Analiza logów własnego serwera może pomóc ustalić, jakie pytania użytkownicy zadawali wyszukiwarkom, zanim trafili stamtąd na nasz serwer. To z kolei pozwoli lepiej dopasować własne słowa kluczowe i treść (lub tylko język) witryny do sposobu w jaki użytkownicy formułują swoje zainteresowania. * Roboty są pełnoprawnymi użytkownikami Sieci i powinny stosować się do jej norm. Administratorzy witryn mają wpływ na zachowanie roota odwiedzającego ich serwer. Odwiedzając witrynę robot spodziewa się znaleźć w katalogu głównym plik o nazwie robots.txt z którego może dowiedzieć się o obowiązujących go zakazach dostępu do części zasobów. Plik taki zawiera wpisy dwojakiego rodzaju:
User Agent: nazwa_robota Disallow: /nazwa_podkatalogu
Na danym serwerze powinien być tylko jeden taki dokument w katalogu głównym. Powinien on być czystym tekstem, napisanym wyłącznie małymi literami, bez pustych wierszy. Przykład dokumentu robots.txt zabraniającego robotowi o nazwie "szukacz" przeszukiwania dwóch podkatalogów:
User Agent: szukacz Disallow: /temp/ Disallow: /cgi-bin/
Poniższy przykład nie zabrania żadnym robotom dostępu do żadnych zasobów i ma ten sam efekt, co bark pliku robots.txt albo pusty taki plik.
User Agent: * Disallow:
Poniższy przykład zabrania wszystkim robotom dostępu do wszystkich zasobów.
User Agent: * Disallow: /
Nazwy robotów aktualnie operujących w Sieci dostępne są na stronie www.spiderhunter.com i innych, podają ją także niektórzy właściciele robotów.
Zawartość dokumentów HTML
* Oznakowanie dokumentów musi być poprawne. Dokumenty HTML muszą być walidowane (programowo sprawdzane na okoliczność "gramatycznej" zgodności z językiem HTML). Ponadto warto pamiętać, że z jednej strony nie wszystkie zaawansowane konstrukcje HTML są w praktyce obsługiwane, zaś z drugiej strony, roboty mogą nie być tak tolerancyjne na błędy i niestandardowe oznakowanie jak popularne przeglądarki. Krótka recepta brzmi: standardy plus dobra praktyka. * Dokumenty HTML, zwłaszcza strona główna, powinny mieć zawsze konkretną zawartość tekstową, najlepiej obszerną, a przynajmniej kilkaset znaków. Zawartość multimedialna (grafika, animacje Flash) jest traktowana jako obojętna lub przeszkadzająca. Powinna być alternatywnie opisana w tekście (atrybut alt dla obiektów graficznych jest obowiązkowy). Multimedialne wstępy do witryny (tzw. "intro") mogą być dyskwalifikujące. * Tytuł dokumentu powinien być unikalny w ramach witryny i starannie dobrany. Na stronach WWW ma on znaczenie drugorzędne (zwykle wyświetlany jest na pasku okna przeglądarki), ale dla prezentacji wyników wyszukiwania ma znaczenie zasadnicze.
<title>Tytuł dokumentu</title>
* Słowa kluczowe i opis dokumentu.
<meta name="description" content="Krótki opis treści dokumentu"> <meta name="keywords" content="słowa,kluczowe,oddzielone,przecinkami">
Słowa kluczowe i opis nie mają obecnie znaczenia, jakie się im czasem przypisuje. Niektóre wyszukiwarki w ogóle nie biorą ich pod uwagę. Jeśli zaś biorą, to analizują je w kontekście treści dokumentu, dla wykrycia ewentualnych nadużyć. Za nadużycie może być uznana sama duża ilość słów kluczowych, nieproporcjonalna do skromnej zawartości tekstowej dokumentu HTML.
Oczywiście każdy dokument powinien zawierać swoiste słowa kluczowe i swoisty opis, adekwatne do jego unikalnej treści. Dobrze jest, jeśli ich użycie znajduje odzwierciedlenie w pierwszych akapitach tekstu, tytułach, treści odsyłaczy i alternatywnych opisach grafiki. Słowa kluczowe. Częstym nieporozumieniem co do roli słów kluczowych jest próba opisania nimi kręgu tematycznego do jakiego, w zamierzeniu autorów, witryna należy. Następnie zaś opatrywanie tym zestawem wszystkich dokumentów witryny. Tymczasem wyszukiwarka (i posługujący się nią użytkownik) znajdują zawsze jednostkowy dokument, w którym te konkretne słowa często w ogóle nie występują. Dlatego postępować należy w odwrotnej kolejności. Analizując każdy konkretny dokument osobno, należy wyłowić z jego treści i potraktować jako kluczowe te wszystkie słowa, które dobrze reprezentują jego treść i mają szansę być kryteriami wyszukiwania dla jakiegoś użytkownika.
Jeśli nie można zapewnić oryginalnego zestawu słów kluczowych i opisu dla każdego dokumentu, to lepiej w ogóle zrezygnować z elementów "meta/keywords" i "meta/descritpion", niż powielać zestaw słów kluczowych nie mających pokrycia w konkretnym dokumencie. Optymalnym wyjściem może być zamieszczenie słów kluczowych tylko na stronie głównej (zakładając, że jej treść dobrze opisuje całą witrynę). * Dobrze jest zamieścić w treści swoich dokumentów odsyłacze do stron o uznanej pozycji w tej samej dziedzinie i postarać się, by stamtąd szły odsyłacze do własnych zasobów. W niektórych wyszukiwarkach można zapytać o listę dokumentów zawierających odsyłacze do konkretnego zasobu, można więc łatwo kontrolować, kto odsyła na nasze strony. * Element "meta/robots" służy do sterowania robotem wyszukiwarki, niezależnie od pliku robots.txt w katalogu głównym serwera. Instruuje on robota, czy dokument ma być indeksowany, a jeśli tak, to czy robot ma podążać za odsyłaczami zawartymi w dokumencie czy nie. <meta name="robots" content="noindex, nofollow"> -- omiń ten dokument <meta name="robots" content="index, nofollow"> -- indeksuj ale nie wchodź głębiej <meta name="robots" content="all"> -- indeksuj i podążaj za odsyłaczami * Element "meta/language"
<meta name="language" content="pl">
Dokumenty HTML powinny zawierać informację o języku naturalnym, w jakim są napisane. Niektóre wyszukiwarki oferują bowiem opcję wyszukiwania w ramach wskazanego języka. W tabeli poniżej wyliczono przykładowe wyniki wyszukiwania (pierwsze 10 dokumentów) w wyszukiwarce Alta Vista, według słowa kluczowego "Chicago". Są one niemal całkowicie różne dla całego WWW, dla języka polskiego i dla domeny *.pl
bez ograniczeń dok. w języku polskim dok. w domenie *.pl www.chicagotribune.com astro.uchicago.edu/ www.uchicago.edu/ www.ci.chi.il.us/ www.suntimes.com/ chicago.hotelguide.net/ www.digitalchicago.com/ chicago.techies.com/ www.chireader.com/ www.cubs.com/ www.poloniawchicago.com/ www.poloniawchicago.com/kw/polskiinternet.htm www.polskiinternet.com/ www.polskiinternet.com/polski/info/chic/chicago.html www.polishconsulatechicago.org/ jordan.koti.com.pl/ www.poloniachicago.net/ dlnslask.bizland.com/ kittie-chicago.blog.pl/ laski-chicago.blog.pl/ jordan.koti.com.pl/ kittie-chicago.blog.pl/ laski-chicago.blog.pl/ wiem.onet.pl/wiem/0110a4.html bulls.e-basket.pl/ jordan.e-basket.pl/ nuty.pl/t/47369.htm slimak.sciaga.pl/prace/praca/5558.htm slimak.sciaga.pl/prace/praca/4823.htm www.opoka.org.pl/biblioteka/Z/ZW/rzym/chicago.html Element "meta/language" dotyczy domyślnego języka dokumentu jako całości. Podobną informację przenosi atrybut lang, który być przypisywany poszczególnym elementom, np. cytatom czy alternatywnym fragmentom w różnych językach.
<div lang="fr">...fragment po francusku...</div>
<div lang="de">...fragment po niemiecku...</div>
Informacja o języku jest rzadko zamieszczana, gdyż, pomimo jej doniosłości w skali globalnej, przeznaczona jest dla dość wyrafinowanych programów i zastosowań: wyboru wersji językowej dokumentu, dla syntetyzatorów mowy, wyboru preferowanych w danym języku konwencji typograficznych (np. znaków cytowania, ligatur itp.) a także pozwala skorzystać z właściwego słownika przenoszenia wyrazów albo słownika ortograficznego. A więc nie są to, jak dotąd, funkcje realizowane przez popularne przeglądarki WWW.
Warto w tym miejscu podkreślić, że ani element "meta/language" ani atrybut lang dowolnego elementu nie mają nic wspólnego z zagadnieniem kodowania znaków i informacją o zestawie znaków dokumentu podawaną w sąsiednim elemencie "meta":
<meta http-equiv="content-type" content="text/html; charset=ISO-8859-2">
Informacje te dotyczą zupełnie innych poziomów interperetacji dokumentu. Informacja o sposobie kodowania dotyczy poziomu podstawowego -- pozwala trafie zamienić transmitowane w Sieci bajty na znaki tekstu. Informacja o języku naturalnym może być pomocna dla zaawansowanego przetwarzania tekstu, np. w programach składu.
Zgłoszenie zasobów
Własne zasoby dobrze jest zgłosić zarówno do katalogów, jak i do wyszukiwarek. Zarówno światowych jak i krajowych. Jednak trudno prognozować efekty takich zgłoszeń i często są one mniejsze od oczekiwań. Redaktorzy katalogów mają wielomiesięczne zaległości, a ponadto nie muszą uznać zgłoszonych zasobów za cenne. Podobnie wyszukiwarki, które mogą odwiedzić zgłoszony adres po pół roku albo w ogóle.
Równie ważne, a może nawet ważniejsze, jest zgłoszenie swojej obecności renomowanym witrynom w danej branży i witrynom pokrewnym. Wyszukiwarki wysoko ocenią fakt licznych odsyłaczy do zgłoszonych zasobów. Najlepszym sposobem uzyskania takich odsyłaczy jest umieszczenie u siebie odsyłaczy do pokrewnych witryn i zawiadomienie o tym fakcie zainteresowanych, z nadzieją na wzajemność.
W skali światowej, celowe może być zgłoszenie zasobów do:
* katalogów: o Open Directory Project (DMOZ), http://dmoz.org/add.html * robotów: o Google, http://www.google.com/addurl.html o Fast, http://www.alltheweb.com/add_url.php o AltaVista, http://addurl.altavista.com/addurl/new
W skali krajowej:
* katalogi: o Wirtualna Polska, http://katalog.wp.pl/dodaj.html o Onet, (łącznie z robotem Inktomi) http://katalog.onet.pl/oko/dodaj.asp o Interia, http://szukaj.interia.pl/addurl/ * roboty: o Netoskop, http://www.netoskop.pl/au.php o Netsprint, http://netsprint.pl/dodaj_url.html o Szukacz, http://www.szukacz.pl/Szukaj/DodajUrl.aspx o Yandex, http://www.yandex.pl/addurl.html
Cechy głównych światowych wyszukiwarek (Google, Inktomi, Teoma, Fast, AltaVista)
wyszukiwarka uwzględnia: TAK NIE samodzielne wyszukiwanie Fast, Google, Inktomi AltaVista, Teoma ramki (frameset) wszystkie --- robots.txt wszystkie --- element "meta/robots" wszystkie --- płatne włączanie wszystkie oprócz ... Google tekst właściwy wszystkie --- element "meta/description" wszystkie, w większym stopniu AltaVista, Fast i Teoma --- element "meta/keywords" Inktomi, Teoma AltaVista, Fast, Google atrybut "alt" grafiki AltaVista, Google, Teoma Fast, Inktomi komentarze Inktomi pozostałe
Płatne włączanie do wyników wyszukiwania to nie to samo co opłata za miejsce w wynikach wyszukiwania ("link sponsorowany"). Niewielka opłata daje tylko gwarancję, że w krótkim czasie zasoby zostaną zindeksowane i włączone do bazy.
Samodzielne wszukiwanie oznacza tu aktywność wyszukiwarki nie ograniczającą się do odwiedzania adresów zgłoszonych do niej.
Źródło: searchenginewatch.com/webmasters/features.html
Warto Zajrzeć - Zapraszamy na inne nasze strony! - We are inviting to our sides!
|