Nasze logo
YahooAltaVistaLycos
Google Netsprint  Hotbot


Szukaj terminu:
Zaczyna się od Zawiera Dokładny wyraz
 
Po wpisaniu nazwy lub pierwszej litery należy wybrać
rodzaj kategorii w której powinien znajdować się szukany plik.
Wpisz wyszukiwane słowo:
Zapraszamy na blogi Chat Forum Słownik Download Filmy Mobil Radio Gry Ekologia Lotnictwo
Na
PromujNewsLetterPartnerzyCzaty/GościePorównania-TestyTłumaczeniaTopXmlHtml4cmsBlogMapaSymantec
skróty
AntySpywareE-mail programySzukaj w SieciProgramowanieBadania InternetoweCSSJava DownloadKatalog DniaekoEnergia
Reklama i pozycjonowanieCMSy i dla webmasterówPodręcznik PHPAccessibility standardCentrum RSSFirewall'eMetaSearchCzasSport
MotoryzacjaWirusy Top RankingStandaryzacjaTweak-Windows-VistaSprzętAntywirusyHacking i BezpieczeństwoBanki/FinanseMedia

Partnerzy:
allegro symantec netsprint
stat mks_vir2k7  
  |   Blogi   |   Konkursy   |   Sondy   |   Blogsfera   |   Avatary Emotikony Ikony   |   Filmy   |  
 

Search Engine - Wyszukiwarka internetowa. Email
25.02.2007.
Wyszukiwarka

- to program i strona internetowa, których zadaniem jest ułatwienie użytkownikom Internetu znalezienie informacji w sieci. Wyszukiwarki to strony internetowe serwisów wyszukujących. W praktyce implementacja oprogramowania wyszukującego udostępnionego internautom w zasobach WWW.

Wyszukiwarki są oprogramowaniem przeznaczonym do indeksowania i wyszukiwania informacji w sieciach komputerowych tak Internecie, jak i Intranecie.

W znaczeniu ogólnym wyszukiwarka to oprogramowanie gromadzące w sposób automatyczny - informacje o dokumentach umieszczonych w sieci i obszarze udostępnionym dla wyszukiwarki do indeksowania.

Jak możemy ogólnie podzielić wyszukiwarki?

Wyszukiwarki oparte na analizie treści strony

Ponieważ Internet rośnie znacznie szybciej niż możliwości jego skatalogowania, oraz z powodu fizycznego ograniczenia katalogów - pod danym hasłem może znajdować się tysiące stron - powstały wyszukiwarki. Przeszukują Internet analizując zawartość witryn. Kiedy użytkownik poda wyszukiwarce zapytanie, ona odpowie mu łączami do stron, które uzna, w zależności od użytego algorytmu, za najbardziej odpowiednie. Wyszukiwarki oparte na tej zasadzie mogą objąć znacznie większą część sieci niż katalogi. Niestety są one podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony często nie mające nic wspólnego z jego zapytaniem.

Wyszukiwarki oparte na analizie topologii sieci

Żeby przeciwdziałać próbom wprowadzenia użytkownika w błąd, wyszukiwarki zaczęły stosować analizę topologii sieci. Tak więc stronę uważa się za odpowiadającą zapytaniu "modelki", jeśli wiele stron na temat "modelek" do niej linkuje.
Strona erotyczna z nagimi zdjęciami, niezależnie od własnej treści, i niezależnie od całkowitej liczby linków - głównie z innych stron erotycznych, nie będzie w ten sposób uznana za związaną z tematem. Jeśli jednak zada się zapytanie "erotyka i modelki", strona ta zostanie uznana za istotną, ponieważ linkuje na nią wiele stron o tematyce "erotyka". Jest to rodzaj heurystyki, w którym dodatkowo wykorzystuje się losowy lub programowy algorytm czytania wybranych linków.

Pierwszą wyszukiwarką, która zastosowała zaawansowane algorytmy analizy topologii sieci był http://www.google.com. Wyszukiwarki oparte na analizie topologicznej są bardzo odporne na nadużycia. Jedynym znanym atakiem, który rzeczywiście zastosowano wobec nich, jest stworzenie dużej ilości gęsto polinkowanych stron, z czego wszystkie na ten sam temat. Jest to jednak zadanie trudne i wymagające dużego nakładu pracy, a modyfikując heurystykę wartości początkowych można znacznie ograniczyć takie działania.

Wyszukiwarki oparte na zasadzie aukcji miejsc

Pomysłem wprowadzonym przez http://overture.com jest system, gdzie strony płacą wyszukiwarce kilka centów za każde kliknięcie, przy czym miejsca są licytowane - strona która daje więcej za kliknięcie znajdzie się wyżej na liście rezultatów. System ten jest korzystny dla właścicieli stron - płacą oni tylko za wejścia, a nie za wyświetlenia. Twórcy twierdzą, że jest on również korzystny dla użytkownika, gdyż tylko strony, które oferują coś użytecznego z danej dziedziny mogą sobie pozwolić na płacenie za wyświetlanie prowadzących do niej linków. Jednak - co ze stronami nie komercyjnymi? Nawet przy stronach komercyjnych wyniki muszą być nieoptymalne ...

Reklamy w wyszukiwarkach

Wyszukiwarki są doskonałym miejscem dla reklamodawców, ponieważ mają oni praktycznie pełną gwarancję, że osoba wyszukująca dane hasło jest nim zainteresowana. Tak więc większość wyszukiwarek oferuje reklamy zależne od treści zapytań np. znany AdWords będący częścią oferty Google. Nie zawsze treści reklamowe są właściwie oddzielone od wyników poszukiwań, co stało się źródłem protestów grup ochrony praw konsumentów.

Oprogramowanie wyszukiwarek


Oprogramowanie wyszukiwarek to zestaw programów, modułów, z których każdy ma inne zadanie. W skład przykładowego zestawu wchodzą:

* Crawler, Robot, Pająk, Spider, Bot - moduły pobierające dokumenty z sieci

* Indexer - program analizujący i oceniający

* Searcher - czyli interfejs wyszukiwarki, w praktyce system odpowiadający na zapytania, analizujący

zapisane i wyszukane treści.

Dodatkowo dochodzą do tego:    

* programy konwersji dokumentów    

* programy archiwizujące repozytorium [Google używa archwizera Z]
   

* programy analizy technik zabronionych [spam]

* moduły administracyjne

Algorytmy stosowane w wyszukiwarkach internetowych.


Algorytmy oceny relewancji dokumentu względem szukanej frazy - algorytmy oceny zawartości strony

    * Binarne
    * Ważenie częstością słów TF - częstość wystąpień słowa
    * Częstość słów - odwrotna częstość w dokumentach TFIDF - model wektorowy
    * PageRank
    * In-degree
    * Metoda Robertsona i Sparcka-Jonesa (1997)
    * Okapi BM-25 TF - Metoda Robertsona (1994)
    * KL-Dir Model Markova
    * Metoda bazowa B
    * Liczba wizyt (klikohit)
    * HITS
    * PHITS
    * PLSA
    * PLSA/PHITS


Wysoka pozycja w wyszukiwarkach


Od czego zależy wysoka pozycja strony w wyszukiwarkach internetowych.


Oczywiście z niemal każdą wyszukiwarką jest inaczej ponieważ każda z nich opiera swoje działanie na różnych algorytmach, i nie sposób wymienić wszystkich czynników które mają wpływ na dobrą pozycję.

Wyszukiwarka Onet


Wyszukiwarka Onetu opiera się na stosunkowo już przestarzałych algorytmach które oceniają stronę pod względem trafności na podstawie jej zawartości. Aby strona była wysoko w wynikach na daną frazę, słowo, należy zadbać o odpowiednie nasycenie strony słowami kluczowymi. Istotne jest aby zarówno w tytule strony, pomiędzy znacznikami <Title> była umieszczona fraza na której nam zależy. Jest to jedna z nielicznych wyszukiwarek która zwraca uwagę na znaczniki meta dlatego ważne jest odpowiednie ich nasycenie odpowiednimi słowami kluczowymi.

Netsprint


Netsprint można nazwać wyszukiwarką losową, a to za sprawą nie najlepszego pomysłu na jaki wpadli jej twórcy. W znacznej części wyniki wyszukiwania opierają się o dane firmy badawczej Gemius, który nie może być brany pod uwagę jako wyznacznik pozycji danej strony. Niektórzy nawet zarzucają wspomnianej firmie - brak obiektywizmu badań, sądzimy jednak że to zbyt skomplikowana materia by ktoś miał prawo się w niej miarodajnie wypowiadać, nie będąc expertem. Firma Gemius ma ugruntowaną pozycję lidera na rynku badawczym.
Ogólnie mówiąc im bardziej strona popularna wśród użytkowników panela tym wyżej strona w wynikach, niestety powoduje to że wyniki są zupełnie przypadkowe, nietrafione i faworyzowane są duże serwisy, lub witryny sztucznie kiedyś wypozycjonowane, często nie mają wiele wspólnego z informacjami na których nam zależy. Strony więc starsze, mimo braku treści - stoją w wyszukiwarce wyżej.

Wirtualna Polska


Teoretycznie wyszukiwarka Wirtualnej Polski oparta jest o silnik NetSprinta, jednak wystarczy porównać wyniki z obu wyszukiwarek aby pozbyć się tych złudzeń. W pierwszej kolejności wyświetlane są strony które znajdują się w katalogu Wirtualnej Polski, stąd ważne jest aby dodać stronę do katalogu a wpis nasycić maksymalną ilością słów kluczowych na których nam zależy. Jest to jedyny sposób na dobrą pozycje w wyszukiwarce Wirtualnej Polski

Google


Wyszukiwarka opiera się na linkach i anchorach, co oznacza, że pozycja witryny  - na dane słowo czy frazę - uzależniona jest od stron, do których prowadzi najwięcej linków z odpowiednim Anchorem. Anchor - tekst wyświetlany na stronie jako treść odnośnika.

Wyszukiwarki Internetowe - optymalizacja, oszukiwanie.


Cloaking (dosł. ukrywanie, maskowanie) - technika optymalizacji rankingu stron internetowych, w której zawartość prezentowana wyszukiwarce internetowej jest odmienna od zawartości prezentowanej czytelnikom. Jest to wykonywane za pomocą albo za pomocą sprawdzania adresu IP osoby żądającej strony, albo sprawdzania nagłówka programu klienckiego (user agent). Istnieją uprawnione przypadki wykorzystania cloakingu, jak udostępnianie zawartości w technice Macromedia Flash czytelnikom, a treści tekstowej wyszukiwarce (która nie rozumie formatu Flash), jednak generalnie cloaking służy do oszukiwania wyszukiwarki i uzyskiwania wyższego rankingu niż jest możliwy bez niego. gdyż opis strony w wyszukiwarce różni się od właściwej zawartości strony. Z tego powodu strony stosujące cloaking są nierzadko trwale usuwane z indeksów większości wyszukiwarek. Cloaking jest odmianą techniki doorway page. Podobna technika jest używana przez osoby dopisujące się do katalogu Open Directory Project, jednak różni się ona od klasycznego cloakingu, gdyż służy oszukiwaniu redaktorów katalogu, a nie wyszukiwarek.

Rodzaje cloakingu

* IP Agent Cloaking (IP Cloaking) - podstawianie innej stron dla robota wyszukiwarki np. dla Googlebota niż dla użytkownika na podstawie rozpoznawania IP mechanizmu/użytkownika wyświetlającego stronę

* User Agent Cloaking (UA Cloaking) - podstawianie innej strony dla robota wyszukiwarki niż dla użytkownika na podstawie rozpoznawania User Agent mechanizmu/użytkownika wyświetlającego stronę. (zobacz: lista User Agent)    

* IP i User Agent Cloaking (IPUA Cloaking)    

* Referral Cloaking    

* Session Cloaking    

* Java Script Cloaking    

* Flash Redirection    

* Encrypted Cloaking    

* Dobry (pozytywny) Cloaking - zalecana przez wyszukiwarki metoda pomocy robotom indeksującym strony

 

Grupowanie wyników z wyszukiwarek - Search Results Clustering


Grupowanie, klasteryzacja, (ang. clustering) jest to zastosowanie clusteringu w odniesieniu do wyników podawanych przez wyszukiwarki internetowe. Polega na efektywnym utworzeniu sensownych grup tematycznie powiązanych dokumentów, oraz ich zwięzłym opisaniu w sposób zrozumiały dla człowieka. Metoda automatyczna, programowa. Metoda ta opiera się na implementacji programowej w postaci algorytmów wyżej wymienionych zasad i obejmuje następujące etapy:

    * wyodrębnienie z wyników jednolitych grup tematycznych
    * znalezienie tematu wspólnego, opisującego dla grup
    * przypisanie jednoznaczne wszystkich pozycji do grup
    * prezentacja wyników pogrupowanych


Algorytmy grupowania


Algorytmy grupowania używane dla grupowania wyników w wyszukiwarkach internetowych:

    * Algorytm Analizy Skupień AHC (Agglomerative Hierarchical Clustering)
    * Lingo
    * Algorytm Rocchio
    * Algorytm TC
    * Algorytm STC
    * LSA
    * PLSA
    * WebSOM
    * QDPageRank
    * SVD


Polskie Wyszukiwarki


* Netsprint - wyszukiwarka polskich zasobów internetowych    

* Google.pl - Polska strona światowej wyszukiwarki Google    

* Onet.pl - Jedna z najpopularniejszych wyszukiwarek w Polsce  

* eMulti - polska multi-wyszukiwarka pracującą równolegle - zadającą zapytania do kilku wyszukiwarek w tym samym czasie.    

* Gooru - wyszukiwarka stron internetowych, grafiki, ogłoszeń drobnych oraz katalog polskich witryn.    

* RazDwaTrzy - polska multi-wyszukiwarka. 19 dostępnych wyszukiwarek. Przeszukiwanie zasobów polskich, zagranicznych i własnego katalogu.    

* Szerlok.com - wyszukiwarka internetowa indeksująca wyłącznie witryny polskie.

Światowe Wyszukiwarki


* Google - największa światowa wyszukiwarka

* Yahoo - dobra wyszukiwarka z własnym algorytmem

* MSN i LIVE - wyszukiwarka będąca własnością firmy Microsoft

* A9.com - wyszukiwarka stworzona przez Amazon.com.

* AllTheWeb - wyszukiwarka przeszukuje strony internetowe, serwery FTP oraz serwisy informacyjne.

* Altavista - kiedyś najpopularniejsza światowa wyszukiwarka

---
Opracowano na podstawie materiałów dostępnych w sieci, analizy, i Wikipedii

 
« poprzedni artykuł   następny artykuł »

Konkursy

Ubezpieczenia Ubezlieczenia wszystkich gatunków

... wszystkich gatunków.
Na siłowni ... cyce na siłowni

... bywa zaskakująco.

Niezłe lanie bójka

Zastanowi się zanim następnym razem będzie wymachiwał rękoma
PS 3 vs vii PS 2 vs. vii

Ciekawe którą... z konsol wybierzesz
Co robi twój mąż ? Wpadka ?

... czy na pewno wiesz ?
breakdance by małolat dzicko tanczy braekdance

Dzieciak będzie kiedyś niezły
Piłeś - nie jedź piłeś nie jedź

... Zobacz jakie mogą być skutki prowadzenia pod wpływem alkoholu.
Sex w kuchni sex w kuchni

To... Chyba nie tak miało być
Fit - na ostro Fit

Co by było gdyby takie reklamy
leciały w TV... hehe
Niebezpieczna umiejętność

Rekord Guiness`a
Niezły dowcip Dowcip

... hehe ciekawe co myśleli studenci :P
Chomik sprinter chomik sprinter

To dopiero szybkość
Polonez z FSO Polonez

Poloneza za 1.4 miliona
NIEMOŻLIWE   :P
Nokia Nokia - will you marry me

Ciekawa reklama Noki
Toyota RAV4 Toyota reklama

... walka o kluczyki

 


POLECAMY:

Pobierz przeglądarkę: Aktualną wersję Java Inne przydatne programy:

opera
 
GetJava Download Button

PRZYJACIELE:

Bo nie jesteśmy sami w internecie...


Wspieramy i korzystamy
  |   redakcja   |   partnerzy   |   polityka prywatności   |   zasady korzystania   |   reklama   |   pomoc   |  
© Dzień e-mail - Internauty 2005-08.