Wyszukiwarka
- to program i strona internetowa, których zadaniem jest
ułatwienie użytkownikom Internetu znalezienie informacji w sieci.
Wyszukiwarki to strony internetowe serwisów wyszukujących. W praktyce
implementacja oprogramowania wyszukującego udostępnionego internautom w zasobach WWW.
Wyszukiwarki są
oprogramowaniem przeznaczonym do indeksowania i wyszukiwania informacji
w sieciach komputerowych tak Internecie, jak i Intranecie.
W znaczeniu ogólnym wyszukiwarka to oprogramowanie gromadzące w sposób
automatyczny - informacje o dokumentach umieszczonych w sieci i obszarze
udostępnionym dla wyszukiwarki do indeksowania.
Jak możemy ogólnie podzielić wyszukiwarki?
Wyszukiwarki oparte na analizie treści strony
Ponieważ Internet rośnie znacznie szybciej niż możliwości jego
skatalogowania, oraz z powodu fizycznego ograniczenia katalogów - pod
danym hasłem może znajdować się tysiące stron - powstały wyszukiwarki.
Przeszukują Internet analizując zawartość witryn. Kiedy użytkownik poda
wyszukiwarce zapytanie, ona odpowie mu łączami do stron, które uzna, w
zależności od użytego algorytmu, za najbardziej odpowiednie.
Wyszukiwarki oparte na tej zasadzie mogą objąć znacznie większą część
sieci niż katalogi. Niestety są one podatne na nadużycia, przez co
użytkownik zamiast użytecznych informacji dostaje linki na strony
często nie mające nic wspólnego z jego zapytaniem.
Wyszukiwarki oparte na analizie topologii sieci
Żeby przeciwdziałać próbom wprowadzenia użytkownika w błąd,
wyszukiwarki zaczęły stosować analizę topologii sieci. Tak więc stronę
uważa się za odpowiadającą zapytaniu "modelki", jeśli wiele stron na
temat "modelek" do niej linkuje.
Strona erotyczna z nagimi zdjęciami, niezależnie od własnej treści, i
niezależnie od całkowitej liczby linków - głównie z innych stron
erotycznych, nie będzie w ten sposób uznana za związaną z tematem.
Jeśli jednak zada się zapytanie "erotyka i modelki", strona ta zostanie
uznana za istotną, ponieważ linkuje na nią wiele stron o tematyce
"erotyka". Jest to rodzaj heurystyki, w którym dodatkowo wykorzystuje
się losowy lub programowy algorytm czytania wybranych linków.
Pierwszą wyszukiwarką, która zastosowała zaawansowane algorytmy analizy
topologii sieci był http://www.google.com. Wyszukiwarki oparte na
analizie topologicznej są bardzo odporne na nadużycia. Jedynym znanym
atakiem, który rzeczywiście zastosowano wobec nich, jest stworzenie
dużej ilości gęsto polinkowanych stron, z czego wszystkie na ten sam
temat. Jest to jednak zadanie trudne i wymagające dużego nakładu pracy,
a modyfikując heurystykę wartości początkowych można znacznie
ograniczyć takie działania.
Wyszukiwarki oparte na zasadzie aukcji miejsc
Pomysłem wprowadzonym przez http://overture.com jest system, gdzie
strony płacą wyszukiwarce kilka centów za każde kliknięcie, przy czym
miejsca są licytowane - strona która daje więcej za kliknięcie znajdzie
się wyżej na liście rezultatów. System ten jest korzystny dla
właścicieli stron - płacą oni tylko za wejścia, a nie za wyświetlenia.
Twórcy twierdzą, że jest on również korzystny dla użytkownika, gdyż
tylko strony, które oferują coś użytecznego z danej dziedziny mogą
sobie pozwolić na płacenie za wyświetlanie prowadzących do niej linków.
Jednak - co ze stronami nie komercyjnymi? Nawet przy stronach
komercyjnych wyniki muszą być nieoptymalne ...
Reklamy w wyszukiwarkach
Wyszukiwarki są doskonałym miejscem dla reklamodawców, ponieważ mają
oni praktycznie pełną gwarancję, że osoba wyszukująca dane hasło jest
nim zainteresowana. Tak więc większość wyszukiwarek oferuje reklamy
zależne od treści zapytań np. znany AdWords będący częścią oferty Google. Nie
zawsze treści reklamowe są właściwie oddzielone od wyników poszukiwań, co stało się
źródłem protestów grup ochrony praw konsumentów.
Oprogramowanie wyszukiwarek
Oprogramowanie wyszukiwarek to zestaw programów, modułów, z których
każdy ma inne zadanie. W skład przykładowego zestawu wchodzą:
* Crawler, Robot, Pająk, Spider, Bot - moduły pobierające dokumenty z sieci
* Indexer - program analizujący i oceniający
* Searcher - czyli interfejs wyszukiwarki, w praktyce system
odpowiadający na zapytania, analizujący
zapisane i wyszukane treści.
Dodatkowo dochodzą do tego:
* programy konwersji dokumentów
* programy archiwizujące repozytorium [Google używa archwizera Z]
* programy analizy technik zabronionych [spam]
* moduły administracyjne
Algorytmy stosowane w wyszukiwarkach internetowych.
Algorytmy oceny relewancji dokumentu względem szukanej frazy - algorytmy oceny zawartości strony
* Binarne
* Ważenie częstością słów TF - częstość wystąpień słowa
* Częstość słów - odwrotna częstość w dokumentach TFIDF - model wektorowy
* PageRank
* In-degree
* Metoda Robertsona i Sparcka-Jonesa (1997)
* Okapi BM-25 TF - Metoda Robertsona (1994)
* KL-Dir Model Markova
* Metoda bazowa B
* Liczba wizyt (klikohit)
* HITS
* PHITS
* PLSA
* PLSA/PHITS
Wysoka pozycja w wyszukiwarkach
Od czego zależy wysoka pozycja strony w wyszukiwarkach internetowych.
Oczywiście z niemal każdą wyszukiwarką jest inaczej ponieważ każda z
nich opiera swoje działanie na różnych algorytmach, i nie sposób
wymienić wszystkich czynników które mają wpływ na dobrą pozycję.
Wyszukiwarka Onet
Wyszukiwarka Onetu opiera się na stosunkowo już przestarzałych
algorytmach które oceniają stronę pod względem trafności na podstawie
jej zawartości. Aby strona była wysoko w wynikach na daną frazę, słowo,
należy zadbać o odpowiednie nasycenie strony słowami kluczowymi.
Istotne jest aby zarówno w tytule strony, pomiędzy znacznikami
<Title> była umieszczona fraza na której nam zależy. Jest to
jedna z nielicznych wyszukiwarek która zwraca uwagę na znaczniki meta
dlatego ważne jest odpowiednie ich nasycenie odpowiednimi słowami
kluczowymi.
Netsprint
Netsprint można nazwać wyszukiwarką losową, a to za sprawą nie
najlepszego pomysłu na jaki wpadli jej twórcy. W znacznej części wyniki
wyszukiwania opierają się o dane firmy badawczej Gemius, który nie
może być brany pod uwagę jako wyznacznik pozycji danej strony.
Niektórzy nawet zarzucają wspomnianej firmie - brak obiektywizmu badań,
sądzimy jednak że to zbyt skomplikowana materia by ktoś miał prawo się
w niej miarodajnie wypowiadać, nie będąc expertem. Firma Gemius ma ugruntowaną pozycję lidera na rynku badawczym.
Ogólnie mówiąc im bardziej strona popularna wśród użytkowników panela
tym wyżej strona w wynikach, niestety powoduje to że wyniki są
zupełnie przypadkowe, nietrafione i faworyzowane są duże serwisy, lub witryny sztucznie kiedyś wypozycjonowane, często nie mają wiele
wspólnego z informacjami na których nam zależy. Strony więc starsze,
mimo braku treści - stoją w wyszukiwarce wyżej.
Wirtualna Polska
Teoretycznie wyszukiwarka Wirtualnej Polski oparta jest o silnik
NetSprinta, jednak wystarczy porównać wyniki z obu wyszukiwarek aby
pozbyć się tych złudzeń. W pierwszej kolejności wyświetlane są strony
które znajdują się w katalogu Wirtualnej Polski, stąd ważne jest aby
dodać stronę do katalogu a wpis nasycić maksymalną ilością słów
kluczowych na których nam zależy. Jest to jedyny sposób na dobrą
pozycje w wyszukiwarce Wirtualnej Polski
Google
Wyszukiwarka opiera się na linkach i anchorach, co oznacza, że pozycja
witryny - na dane słowo czy frazę - uzależniona jest od stron, do
których prowadzi najwięcej linków z odpowiednim Anchorem. Anchor -
tekst wyświetlany na stronie jako treść odnośnika.
Wyszukiwarki Internetowe - optymalizacja, oszukiwanie.
Cloaking (dosł. ukrywanie, maskowanie) - technika optymalizacji
rankingu stron internetowych, w której zawartość prezentowana
wyszukiwarce internetowej jest odmienna od zawartości prezentowanej
czytelnikom. Jest to wykonywane za pomocą albo za pomocą sprawdzania
adresu IP osoby żądającej strony, albo sprawdzania nagłówka programu
klienckiego (user agent). Istnieją uprawnione przypadki wykorzystania
cloakingu, jak udostępnianie zawartości w technice Macromedia Flash
czytelnikom, a treści tekstowej wyszukiwarce (która nie rozumie formatu
Flash), jednak generalnie cloaking służy do oszukiwania wyszukiwarki i
uzyskiwania wyższego rankingu niż jest możliwy bez niego. gdyż opis
strony w wyszukiwarce różni się od właściwej zawartości strony. Z tego
powodu strony stosujące cloaking są nierzadko trwale usuwane z indeksów
większości wyszukiwarek. Cloaking jest odmianą techniki doorway page.
Podobna technika jest używana przez osoby dopisujące się do katalogu
Open Directory Project, jednak różni się ona od klasycznego cloakingu,
gdyż służy oszukiwaniu redaktorów katalogu, a nie wyszukiwarek.
Rodzaje cloakingu
* IP Agent Cloaking (IP Cloaking) - podstawianie innej stron dla
robota wyszukiwarki np. dla Googlebota niż dla użytkownika na podstawie
rozpoznawania IP mechanizmu/użytkownika wyświetlającego stronę
* User Agent Cloaking (UA Cloaking) - podstawianie innej strony dla
robota wyszukiwarki niż dla użytkownika na podstawie rozpoznawania User
Agent mechanizmu/użytkownika wyświetlającego stronę. (zobacz: lista
User Agent)
* IP i User Agent Cloaking (IPUA Cloaking)
* Referral Cloaking
* Session Cloaking
* Java Script Cloaking
* Flash Redirection
* Encrypted Cloaking
* Dobry (pozytywny) Cloaking - zalecana przez wyszukiwarki metoda pomocy robotom indeksującym strony
Grupowanie wyników z wyszukiwarek - Search Results Clustering
Grupowanie, klasteryzacja, (ang. clustering) jest to zastosowanie
clusteringu w odniesieniu do wyników podawanych przez wyszukiwarki
internetowe. Polega na efektywnym utworzeniu sensownych grup
tematycznie powiązanych dokumentów, oraz ich zwięzłym opisaniu w sposób
zrozumiały dla człowieka. Metoda automatyczna, programowa. Metoda ta
opiera się na implementacji programowej w postaci algorytmów wyżej
wymienionych zasad i obejmuje następujące etapy:
* wyodrębnienie z wyników jednolitych grup tematycznych
* znalezienie tematu wspólnego, opisującego dla grup
* przypisanie jednoznaczne wszystkich pozycji do grup
* prezentacja wyników pogrupowanych
Algorytmy grupowania
Algorytmy grupowania używane dla grupowania wyników w wyszukiwarkach internetowych:
* Algorytm Analizy Skupień AHC (Agglomerative Hierarchical Clustering)
* Lingo
* Algorytm Rocchio
* Algorytm TC
* Algorytm STC
* LSA
* PLSA
* WebSOM
* QDPageRank
* SVD
Polskie Wyszukiwarki
* Netsprint - wyszukiwarka polskich zasobów internetowych
* Google.pl - Polska strona światowej wyszukiwarki Google
* Onet.pl - Jedna z najpopularniejszych wyszukiwarek w Polsce
* eMulti - polska multi-wyszukiwarka pracującą równolegle - zadającą zapytania do kilku wyszukiwarek w tym samym czasie.
* Gooru - wyszukiwarka stron internetowych, grafiki, ogłoszeń drobnych oraz katalog polskich witryn.
* RazDwaTrzy - polska multi-wyszukiwarka. 19 dostępnych wyszukiwarek.
Przeszukiwanie zasobów polskich, zagranicznych i własnego katalogu.
* Szerlok.com - wyszukiwarka internetowa indeksująca wyłącznie witryny polskie.
Światowe Wyszukiwarki
* Google - największa światowa wyszukiwarka
* Yahoo - dobra wyszukiwarka z własnym algorytmem
* MSN i LIVE - wyszukiwarka będąca własnością firmy Microsoft
* A9.com - wyszukiwarka stworzona przez Amazon.com.
* AllTheWeb - wyszukiwarka przeszukuje strony internetowe, serwery FTP oraz serwisy informacyjne.
* Altavista - kiedyś najpopularniejsza światowa wyszukiwarka
---
Opracowano na podstawie materiałów dostępnych w sieci, analizy, i Wikipedii
|