Sökmotor

En sökmotor är ett program för forskning av dokument lagrade i en dator eller ett datanätverk . B. World Wide Web lagras. Efter att ha skapat en sökfråga, ofta genom att ange en sökterm i text, ger en sökmotor en lista med referenser till eventuellt relevanta dokument, vanligtvis med en titel och ett kort utdrag av respektive dokument. Olika sökmetoder kan användas för detta.

De viktigaste komponenterna eller ansvarsområdena för en sökmotor är:

  • Skapa och underhålla ett index ( datastruktur med information om dokument),
  • Behandling av sökfrågor (sökning och ordning av resultat) och
  • Förberedelse av resultaten på ett så meningsfullt sätt som möjligt.

Som regel datainsamling sker automatiskt på Internet genom att sökrobotar på en enda dator genom regelbunden avläsning av alla filer i användardefinierade kataloger i det lokala filsystemet .

egenskaper

Sökmotorer är metamedia som specifikt hittar och får tillgång till innehållet i andra medier. De kan kategoriseras efter ett antal egenskaper. Följande funktioner är i stort sett oberoende. När man utformar en sökmotor kan man därför välja ett alternativ från var och en av grupperna av egenskaper utan att detta påverkar valet av de andra egenskaperna.

Typ av data

Olika sökmotorer kan söka i olika typer av data. Först och främst kan dessa grovt delas in i "dokumenttyper" som text, bild, ljud, video och andra. Resultatsidor är utformade beroende på denna kategori. När du söker efter textdokument visas vanligtvis ett textfragment som innehåller söktermerna ( kallas ofta ett utdrag ). Bildsökmotorer visar en miniatyrbild av matchande bilder. Ett folk sökmotor hittar allmänt tillgänglig information om namn och människor, som visas som en lista med länkar. Andra specialiserade typer av sökmotorer inkluderar jobbsökmotorer , industrisökningar eller produktsökmotorer . De senare används främst för prisjämförelser online, men det finns också lokala erbjudanden som visar produkter och erbjudanden från stationära återförsäljare online.

En annan finare uppdelning handlar om dataspecifika egenskaper som inte delas av alla dokument inom en kategori. Om du håller dig till exempeltexten kan du söka efter vissa författare efter Usenet -artiklar, efter webbplatser i HTML -format för dokumentets titel.

Beroende på typ av data är en begränsning till en delmängd av alla data av en typ möjlig som en ytterligare funktion . Detta implementeras vanligtvis med hjälp av ytterligare sökparametrar som filtrerar sökresultatet, till exempel med vissa booleska uttryck ( AND , OR , NOT ), enligt ett visst språk, ett visst land, en viss period, ett visst filformat etc. från inspelade data. Alternativt kan en sökmotor begränsa sig till att endast inkludera lämpliga dokument från början. Exempel är en sökmotor för webbloggar (i stället för hela webben) eller sökmotorer som bara behandlar dokument från universitet, eller bara dokument från ett visst land, på ett visst språk eller i ett visst filformat.

Datakälla

En annan egenskap för kategorisering är källan från vilken data som sökmotorn samlar in kommer från. Vanligtvis beskriver namnet på sökmotortypen redan källan.

  • Websökmotorer samlar in dokument från World Wide Web,
  • vertikala sökmotorer tittar på ett utvalt område på World Wide Web och samlar bara in webbdokument om ett specifikt ämne som fotboll, hälsa eller lag.
  • Usenets sökmotorbidrag från det världsomspännande Usenet -diskussionsmediet .
  • Intranetsökmotorer är begränsade till datorerna på ett företags intranät .
  • Enterprise Search Sök motorer möjliggöra en central söka via olika datakällor inom ett företag, till exempel B. filservrar, wikis, databaser och intranät.
  • Som ett stationärt sökprogram kallas, gör den lokala databasen för en enda dator sökbar.

Om data erhålls manuellt genom registrering eller av redaktörer kallas det en katalog eller katalog . I kataloger som Open Directory Project är dokumenten hierarkiskt organiserade i en innehållsförteckning efter ämne.

insikt

Detta avsnitt beskriver skillnader i genomförandet av sökmotorns funktion.

Sökmotorklassificering
Sökmotordiagram de.svg
Indexbaserad sökmotor
Meta-search-de.svg
Metasearch -motor
Federated-search-de.svg
Federerad sökmotor


  • Den viktigaste gruppen idag är indexbaserade sökmotorer . Dessa läser in lämpliga dokument och skapar ett index. Detta är en datastruktur som används i en senare sökfråga. Nackdelen är det komplexa underhållet och lagringen av indexet, fördelen är accelerationen av sökprocessen. Den vanligaste formen av denna struktur är ett inverterat index . Datavetaren Karen Spärck Jones , som kombinerade statistiska och språkliga processer, utförde det grundläggande förberedande arbetet för utvecklingen .
  • Meta sökmotorer skickar sökfrågor parallellt med flera indexbaserade sökmotorer och kombinerar de enskilda resultaten. Fördelen är den större datamängden och den enklare implementeringen, eftersom inget index behöver behållas. Nackdelen är den relativt långa tid det tar att behandla begäran. Dessutom är rankningen av tvivelaktigt värde på grund av ren majoritetsfynd. Kvaliteten på resultaten kan sänkas till kvaliteten på den värsta undersökta sökmotorn. Metasökmotorer är särskilt användbara för sällsynta sökord.
  • Hybridformer finns också . Dessa har ett eget, ofta relativt litet, index, men de undersöker också andra sökmotorer och kombinerar slutligen de enskilda resultaten. Så kallade realtidssökmotorer startar indexeringsprocessen först efter en fråga. Sidorna som hittas är alltid uppdaterade, men kvaliteten på resultaten är dålig på grund av bristen på en bred databas, särskilt med mindre vanliga söktermer.
  • En relativt ny metod är distribuerade sökmotorer eller federerade sökmotorer . En sökfråga vidarebefordras till ett stort antal enskilda datorer, som var och en driver sin egen sökmotor, och resultaten slås samman. Fördelen är den höga säkerhetsnivån mot misslyckanden på grund av decentraliseringen och - beroende på din synvinkel - bristen på förmåga att censurera centralt . Det är dock svårt att lösa rangordningen , det vill säga sorteringen av de i grunden lämpliga dokumenten efter deras relevans för frågan.
  • En särskild typ av distribuerade sökmotorer är de som bygger på peer-to-peer- principen som bygger ett distribuerat index. På var och en av dessa kamrater kan oberoende sökrobotar censurbeständigt registrera de delar av webben som respektive peer-operatör definierar genom enkel lokal konfiguration. Det mest kända systemet, förutom några främst akademiska projekt (t.ex. Minerva), är YaCy- programvaran, som är gratis under GNU-GPL .

Tolkning av ingången

En användares sökfråga tolkas innan själva söka och placeras i en form som är begriplig för internt använda sökandet algoritm . Detta tjänar till att hålla syntaxen för begäran så enkel som möjligt och ändå tillåta komplexa förfrågningar. Många sökmotorer stöder den logiska kombinationen av olika söktermer med booleska operatörer och den exakta sökningen efter ett eller flera ord i citattecken . Detta gör det möjligt att hitta webbplatser som innehåller vissa termer men inte andra.

En nyare utveckling är ett antal sökmotors förmåga att utveckla implicit tillgänglig information från själva sökfrågan och att utvärdera den. De oklarheter i sökfrågan som vanligtvis finns när det gäller ofullständiga sökfrågor kan således minskas och sökresultatets relevans (det vill säga korrespondensen med de medvetna eller omedvetna förväntningarna hos sökaren) kan ökas. Av de inmatade söktermernas semantiska likheter (se även: Semantisk sökning ) härleds en eller flera underliggande betydelser av frågan. Resultatuppsättningen utökas till att omfatta träffar på semantiskt relaterade söktermer som inte uttryckligen anges i frågan. Som regel leder detta inte bara till en kvantitativ förbättring, utan också till en kvalitativ förbättring (relevans) av resultaten, särskilt vid ofullständiga frågor och inte optimalt valda söktermer, eftersom sökavsikterna, som i dessa fall är ganska suddiga av söktermerna, orsakas av att de statistiska metoderna som används av sökmotorerna återges förvånansvärt bra i praktiken. (Se även: semantisk sökmotor och latent semantisk indexering ).

Information som osynligt tillhandahålls (platsinformation och annan information, vid förfrågningar från mobilnätet) eller härledda "meningspreferenser" från användarens lagrade sökhistorik är ytterligare exempel på att det inte uttryckligen anges i de söktermer som anges av flera sökmotorer för att ändra och förbättra resultatinformationen som används.

Det finns också sökmotorer som bara kan efterfrågas med strikt formaliserade frågespråk , men som vanligtvis också kan besvara mycket komplexa frågor väldigt exakt.

En förmåga hos sökmotorer som hittills bara varit möjlig i begränsad omfattning eller på begränsad information är möjligheten att bearbeta naturliga språk och otydliga sökfrågor. (Se även: semantisk webb ).

Problem

tvetydighet

Sökfrågor är ofta oprecisa. Till exempel kan sökmotorn inte självständigt bestämma om den ska söka efter en lastbil eller en dålig vana med termen lastbil ( semantisk korrekthet). Omvänt bör sökmotorn inte insistera för envist på den angivna termen. Du bör också synonymer inkluderar tyder på att begreppet dator Linux också kommer att finna sidor som tar dator ordet dator ingår.

grammatik

Många möjliga träffar går förlorade eftersom användaren letar efter en specifik grammatisk form av en sökterm. En sökning efter termen bil hittar alla sidor i sökindexet som innehåller denna term, men inte de med termen bilar . Vissa sökmotorer tillåter sökningar med jokertecken , vilket delvis kan kringgå detta problem (t.ex. sökfrågan bil * tar också hänsyn till termen bilar eller automatism ), men användaren måste också vara bekant med möjligheten. Stammning används också ofta , varigenom ord reduceras till deras grundläggande stam. Så å ena sidan är en fråga om liknande ordformer möjlig ( vackra blommor är också en vacker blomma ), liksom antalet termer reduceras i indexet. Nackdelarna med stammning kan kompenseras genom en språklig sökning där alla ordvarianter genereras. En annan möjlighet är användningen av statistiska metoder med vilka sökmotorn kan behandla frågan z. B. genom att olika relaterade termer visas på webbplatser för att utvärdera om sökandet efter bilreparation också kunde ha inneburit sökandet efter bilreparation eller automatiserad reparation .

Punkter

Tekniska termer och produktnamn vars egna namn innehåller ett skiljetecken (t.ex. Apples webbtjänst .Mac eller C / net) kan inte effektivt sökas efter och hittas med vanliga sökmotorer. Undantag har endast gjorts för några mycket vanliga termer (t.ex.. Net, C #eller C ++).

Mängd data

Mängden data växer ofta mycket snabbt. Big data handlar om mängder data som är för stora, för komplexa, för snabba eller för svagt strukturerade för att kunna utvärderas med manuella och konventionella databehandlingsmetoder .

Aktualitet

Många dokument uppdateras ofta, vilket tvingar sökmotorerna att indexera om dessa sidor om och om igen enligt definierbara regler. Detta är också nödvändigt för att identifiera dokument som har tagits bort från databasen under tiden och inte längre erbjuda dem som ett resultat.

teknologi

Implementera sökningar på mycket stora mängder data på ett sådant sätt att tillgängligheten är hög (trots maskinvarufel och flaskhalsar i nätverket) och svarstiderna är låga (även om det ofta är nödvändigt att läsa och bearbeta flera 100 MB indexdata för varje sökfråga), platser stora krav på sökmotoroperatören. System måste utformas mycket redundant , å ena sidan på datorerna på plats i ett datacenter, å andra sidan bör det finnas mer än ett datacenter som erbjuder den kompletta sökmotorfunktionen.

Sökmotorer på webben

Webbsökmotorer har sitt ursprung i informationshämtningssystem . Den data som erhålls genom sökrobot av respektive sökmotor som Googlebot . Ungefär en tredjedel av alla sökningar på Internet avser människor och deras aktiviteter.

Sökbeteende

Sökfrågor kan kategoriseras på olika sätt. Denna klassificering spelar en roll för onlinemarknadsföring och sökmotoroptimering ( sökmotormarknadsföring ).

Navigationsorienterade sökfrågor
När han gör navigationsfrågor söker användaren specifikt efter sidor som han redan vet eller som han tror finns. Användarens behov av information tillgodoses efter att sidan hittats.
Informationsorienterade sökfrågor
Vid informationsförfrågningar letar användaren efter ett stort antal information om ett specifikt ämne. Sökningen avslutas när informationen tas emot. Det är vanligtvis inget vidare arbete med de använda sidorna.
Transaktionsorienterade sökfrågor (eller kommersiella sökfrågor)
Vid transaktionsförfrågningar letar användaren efter webbplatser som han tänker arbeta med. Det här är till exempel internetbutiker, chattar etc.
Fråga innan du köper
Till exempel söker användaren specifikt efter testrapporter eller recensioner på vissa produkter, men letar ännu inte efter specifika erbjudanden på en produkt.
Handlingsinriktade sökningar
Med sin sökfråga signalerar användaren att de vill göra något (ladda ner något eller titta på en video).

Presentation av resultaten

Sidan där sökresultaten visas för användaren (ibland även kallad sökmotorsresultatsidan , SERP för kort) är uppdelad (ofta också rumsligt) i många webbsökmotorer i de naturliga listorna och sponsorlänkarna . Medan de senare bara ingår i sökindexet mot betalning, listar den förstnämnda alla webbplatser som matchar söktermen. Förutom de faktiska sökresultaten visar vissa leverantörer användaren andra sökord som matchar sökningen.

För att göra det enklare för användaren att använda webbsökmotorerna sorteras resultaten efter relevans ( huvudartikel: sökmotorrankning ), för vilka varje sökmotor använder sina egna, mest hemliga, kriterier. Detta inkluderar:

  • Den grundläggande betydelsen av ett dokument, mätt med länkstrukturen, kvaliteten på de hänvisande dokumenten och texten i referenserna.
  • Frekvens och position för söktermerna i respektive dokument som hittats.
  • Dokumentets omfattning och kvalitet.
  • Klassificering och antal angivna dokument.

Se även: Förordning för att främja rättvisa och transparens för onlineförmedlingstjänster och online -sökmotorer i Europeiska unionen .

Problem

Lag

Webbsökmotorer drivs mestadels internationellt och erbjuder användare därför resultat från servrar i andra länder. Eftersom lagstiftningen i de olika länderna har olika uppfattningar om vilket innehåll som är tillåtet, blir operatörer av sökmotorer ofta pressade att utesluta vissa sidor från sina resultat. Sedan 2006 har till exempel de marknadsledande webbsökmotorerna inte visat några webbplatser som träffar för sökfrågor från Tyskland som har klassificerats som skadliga för unga av förbundsinspektionen för media som är skadligt för unga. Denna praxis utförs frivilligt av sökmotorerna som en automatiserad process (filtermodul) inom ramen för frivillig självreglering av leverantörer av multimediatjänster .

Aktualitet

Regelbunden nedladdning av de miljarder dokument som en sökmotor har i index ställer stora krav på sökmotoroperatörens nätverksresurser ( trafik ).

Skräppost

Använda sökmotorn spam , vissa webbplatsoperatörer försöker överlista sökmotorns ranking algoritm för att få en bättre ranking för vissa sökfrågor. Detta skadar både sökmotorens operatörer och deras kunder, eftersom de mest relevanta dokumenten inte längre visas först.

dataskydd

Dataskydd är en särskilt känslig fråga med en sökmotor för människor . När en sökning efter ett namn startas från en personsökmotor gäller sökresultaten endast data som är allmänt tillgängliga. Dessa uppgifter är tillgängliga för allmänheten utan att behöva registrera sig hos en tjänst eller liknande, även utan sökmotorn. Personsökmotorn i sig har ingen egen information, den ger bara åtkomst till den. Korrigeringar eller raderingar måste göras till respektive originalkälla. Ytterligare juridiska frågor uppstår när det gäller visning av data genom automatisk komplettering (se juridisk situation i Tyskland ).

miljöskydd

Eftersom varje sökfråga förbrukar (server) el, det finns leverantörer (så kallade ” gröna sökmotorer ”) som förlitar sig på CO 2 -compensating eller sparande åtgärder (till exempel plantera träd, skogsplantering regnskogen).

Marknadsandelar

Tyskland

Efternamn Andel sökfrågor i Tyskland i februari 2021 procent
Google
90,47%
Bing
6,14%
Ecosia (använder Bing)
1,07%
DuckDuckGo
0,88%
Yahoo! (använder Bing)
0,7%
T-Online (använder Google)
0,23%
Andra (t.ex. Egerin )
0,51%

Över hela världen

Efternamn Andel sökningar världen över i februari 2021 procent
Google
72,68%
Bing
11,94%
Baidu
11,72%
Yahoo! (använder Bing)
1,81%
Yandex
0,80%
DuckDuckGo
0,56%
Naver
0,22%
Ecosia (använder Bing)
0,13%
Qwant
0,05%
AOL
0,04%
Övrig
0,05%

Se även

litteratur

webb-länkar

Individuella bevis

  1. ^ Artur Hoffmann: Sökmotorer för datorer . I: PC Professionell 2/2007, s. 108ff.
  2. https://www.nytimes.com/2019/01/02/obituaries/karen-sparck-jones-overlooked.html
  3. Optimera webbsökningar . Arkiverad från originalet den 27 november 2020. Hämtad 7 januari 2021.
  4. Hjälp för Google -sökning
  5. Personsökmotorer: Spåren av andra på Internet . I: Stern digital
  6. ^ Lewandowski, Dirk,: Web 2.0 -tjänster som ett komplement till algoritmiska sökmotorer . Logos-Verl, Berlin 2008, ISBN 978-3-8325-1907-0 , sid. 57 .
  7. ^ Andrei Broder: En taxonomi för webbsökning. I: ACM SIGIR Forum. Vol. 36, nr 2, 2002, ISSN  0163-5840 , s. 3-10, doi : 10.1145 / 792550.792552 .
  8. Typer av sökfrågor (transaktions- / navigations- / informations) | Innehållsmarknadsföring Ordlista. I: textbroker.de. Åtkomst 1 juli 2019 (tyska).
  9. ^ Vanessa Fox: Marknadsföring i Googles tid . John Wiley & Sons, 2012, sid. 67-68 .
  10. Yasni: People search engine at the start basicthinking.de, 29 oktober 2007
  11. ^ Sökmotor Marknadsandel Tyskland. Åtkomst 2 mars 2021 .
  12. a b Golem.de: IT -nyheter för proffs. Hämtad 21 mars 2021 .
  13. ^ Marknadsandel för sökmotorer. Åtkomst 2 mars 2021 .