Home  |  Aktualności  |  e-Komunikacja  |  WWW  |  Bezpieczeństwo  |  Linux  |  Programy  |  GSM/UMTS  |  Rozrywka

Roboty wyszukiwarek

 Czym są roboty?

By wyszukiwarka mogła odszukać waszą witrynę musi skorzystać z programów które pomagają jej ją odszukać, przeczytają zawarte na niej treści i zapisanie tych informacji w swoich bazach indeksujących.

Powszechnie systemy indeksujące nazywamy robotami, robotami wyszukującymi.

Czy można kontrolować roboty wyszukujące?

Pamiętając o kilku prawach i zasadach działania robotów - twórcy stron witryn mogą pomóc robotom, mogą im też przeszkodzić. Roboty nie indeksują nie polinkowanych zasobów, co wprost oznacza, że przeważająca większość plików zapisanych po prostu na serwerze, nie jest odczytywana. Daje to, jak możemy się spodziewać kontrolę - które katalogi powinny być odwiedzane i które pliki zauważane. Bezpośrednim centrum zarządzania, plikiem odpowiedzialnym za czytanie strony jest:

robots.txt


- znajdujący się zwykle w głównym katalogu serwisu. Oczywiście by nie tworzyć iluzji sielanki, od razu warto napisać, że choć przedstawione dalej treści są proste, całość pracy związana z pozycjonowaniem i zwiększeniem szansy na jednoznaczne "przeszukanie" nie jest tak prosta. I nie zamyka się tylko na wspierających wpisach Meta Tagów, do czego wrócę.

Linki łatwe czy trudne?


Roboty indeksujące wyszukują pliki podążając za linkami, wgłębiając się coraz dalej w strukturę witryny.

Jednak warto pamiętać, że automaty ominą strony odłączone z punktu startowego, mają też kłopoty z linkami napisanymi np. w JavaScript. Robot widzi stronę www podobnie jak przeglądarka, i podobnie jak ona z dynamiczną zawartością - napotyka na dynamiczne elementy waszej witryny - których nie potrafi przeczytać, (a przeglądarka wyświetlić).


Większość lokalnych skryptów indeksujących poradzi sobie z długimi linkami, jednak światowe wyszukiwarki często pomijają trudne, długie frazy. W końcu i tak maja masę pracy przemierzając niepoliczalne zasoby...
---

Mało kto zdaje sobie sprawę z faktu, że podobnie jak "zwykłe" wyszukiwanie... Roboty obciążają nasz serwis www i serwer. Przecież używają protokołu HTTP zdarza się, że robot wpada w pętlę. Na czym to polega? Próbuje odczytać konkretną informację z serwera powtarzając wkoło te same zapytania!

Skąd roboty wiedzą co i gdzie się zmieniło?

Komendy Get / If-Modified-Since

Najzwyczajniej wysyłają zapytanie do waszej strony na serwer używając dwu zapytań HEAD (GET z przeglądarki), serwer odpowiada odsyłając nagłówek strony
- z wewnętrznego cache`u, bez otwierania i czytania całego pliku - wówczas indexer porównuje daty zapisaną z czytaną.


a/ Jeśli strona nie została zmieniona, robot nie zmienia indeksu.

b/ Jeżeli nie zna strony lub daty się różnią "maszyna" wysyła GET pobierając nową lub odświerzoną treść.

- innym zapytaniem jest "If-Modified-Since". To pobranie nagłówka HTTP/1.1 ułatwiające pracę

- bo jeżeli strona zmieniona wysyła informację do "maszyny", jezeli nie - analogicznie informację, że "nic istotnego się nie stało".

Próżne duplikaty

A o tym zagadnieniu, w kolejnej części materiału ;-)
---