În motorul de căutare rezultă care. Motorul de căutare Yandex ru. Motor de căutare, ce este?

21.11.2017

Orice întrebare îngrijorează o persoană modernă, el nu caută răspunsuri în cărți. Îi caută pe internet. Mai mult, nu trebuie să știți adresa site-ului unde se află informațiile de care aveți nevoie. Există milioane de astfel de site-uri, iar motorul de căutare te ajută să-l găsești pe cel potrivit.

Pe vastitatea internetului nostru intern, cele mai populare două motoare de căutare sunt Google și Yandex.

Te-ai întrebat vreodată cum funcționează un motor de căutare? Cum înțelege ea ce site să arate, care dintre milioanele de resurse are cu siguranță răspunsul la solicitarea ta?

Ce este un motor de căutare?

Un motor de căutare este o bază de date uriașă de documente web care este actualizată și extinsă în mod constant. Fiecare motor de căutare are păianjeni de căutare; roboții sunt roboți speciali care accesează cu crawlere site-urile, indexează conținutul postat pe ele și apoi le clasifică în funcție de calitatea și relevanța lor pentru interogările de căutare ale utilizatorilor.

Motoarele de căutare funcționează astfel încât oricine poate găsi orice informație. De aceea, încearcă să arate mai întâi acele documente web care conțin cel mai detaliat răspuns la întrebarea unei persoane.

În esență, un motor de căutare este un director de site-uri, un director, a cărui funcție principală este de a căuta informații chiar în acest director.

După cum am scris mai sus, avem două sisteme populare - Google (global) și Yandex (segment în limba rusă). Există însă și sisteme precum Rambler, Yahoo, Bing, Mail.Ru și altele. Principiul de funcționare este similar pentru toate, doar algoritmii de clasare diferă (și chiar și atunci nu foarte semnificativ).

Cum funcționează un motor de căutare pe Internet?

Principiul modului în care funcționează motoarele de căutare este foarte complex, dar voi încerca să-l explic în cuvinte simple.

Un robot de căutare (păianjen) accesează cu crawlere paginile site-ului, le descarcă conținutul și extrage linkuri. Apoi, indexatorul își începe munca - acesta este un program care analizează toate materialele descărcate de păianjeni, bazându-se pe propriii algoritmi.

Astfel, se creează o bază de date a motorului de căutare în care sunt stocate toate documentele procesate de algoritm.

Lucrul cu o interogare de căutare se efectuează după cum urmează:

se analizează interogarea introdusă de utilizator;
rezultatele analizei sunt transferate într-un modul special de clasare;
se prelucrează datele tuturor documentelor, se selectează cele mai relevante pentru cererea introdusă;
se generează un fragment - titlul, descrierea, cuvintele din cerere sunt evidențiate cu caractere aldine;
rezultatele căutării sunt prezentate utilizatorului sub forma unei SERP (pagină de rezultate).

Cum funcționează motoarele de căutare

Sarcina principală a oricărui motor de căutare este de a oferi utilizatorului cele mai utile și corecte informații cu privire la solicitarea acestuia. Prin urmare, robotul de căutare accesează constant site-urile. Imediat după lansare, după un anumit program, păianjenul vine să te viziteze, se târăște un număr de pagini, după care sunt indexate.

Principiul de funcționare al motoarelor de căutare se bazează pe două etape principale:

accesarea cu crawlere a paginilor prin care sunt colectate date;
atribuirea unui index, datorită căruia sistemul poate căuta rapid conținutul unei anumite pagini.

Odată ce o pagină de site este indexată, aceasta va apărea deja în rezultatele căutării pentru o anumită interogare de căutare. Puteți verifica dacă o pagină nouă este inclusă în indexul motorului de căutare folosind instrumente pentru webmasteri. De exemplu, în Yandex.Webmaster puteți vedea imediat ce pagini au fost indexate și când și care pagini au căzut din index și din ce motiv.

Dar pe ce pagină va ajunge depinde de gradul de indexare și de calitatea conținutului său. Dacă pagina dvs. oferă răspunsul cel mai precis la o interogare, aceasta va fi mai mare decât toate celelalte.

Principii de clasare a site-urilor web în motoarele de căutare

Ne-am dat seama pe ce principiu funcționează roboții de căutare. Dar cum sunt clasate site-urile?

Clasamentul se bazează pe doi piloni principali - conținutul text al paginii și factori non-text.

Conținut text– acesta este contextul paginii. Cu cât este mai completă, cu atât mai precisă, cu atât mai relevantă pentru cerere, cu atât pagina va fi mai sus în rezultatele căutării. Pe lângă textul în sine, motorul de căutare acordă atenție completării etichetelor titlu (titlul paginii), descrierea (descrierea paginii), H1 (titlul textului).

Factori non-text Acestea sunt link-uri interne și link-uri externe. Ideea este: dacă site-ul este interesant și util, atunci alte resurse tematice se leagă de el. Și cu cât mai multe astfel de link-uri, cu atât mai autoritară este resursa.

Dar acestea sunt cele mai de bază principii, foarte pe scurt. Să aprofundăm puțin.

De bazăfactori de clasare a site-ului web

Există o serie de factori care influențează clasarea unui site web. Principalele sunt:

1. Bfactorii interni de clasificare a site-ului web

Acesta este textul de pe site și designul acestuia - subtitluri, evidențiind punctele importante din text. Utilizarea legăturilor interne se aplică și aici. Elementele vizuale sunt și ele importante: utilizarea imaginilor, fotografiilor, videoclipurilor, graficelor. De asemenea, este importantă calitatea textului în sine, conținutul acestuia.

2. Factori externi de clasificare a site-ului web care îi determină popularitatea. Acestea sunt aceleași link-uri externe care duc la site-ul dvs. din alte resurse. Nu se determină doar numărul acestor site-uri, ci și calitatea acestora (este de dorit ca site-urile să aibă o temă similară cu a ta), precum și calitatea generală a profilului de link (cât de repede au apărut aceste link-uri, în mod natural sau prin achiziții pe schimbul).

Pe baza celor de mai sus, se poate trage o concluzie: motoarele de căutare încearcă să funcționeze în așa fel încât să arate utilizatorului acele site-uri care oferă cel mai complet răspuns la cererea sa și au câștigat deja o anumită autoritate.În acest caz, sunt luați în considerare o varietate de factori: conținutul site-ului, setările acestuia și atitudinea utilizatorilor față de acesta. Un site care este bun din toate punctele de vedere va avea cu siguranță o poziție ridicată în rezultatele căutării.

De ce un specialist în marketing trebuie să cunoască principiile de bază ale optimizării pentru motoarele de căutare? Este simplu: traficul organic este o sursă excelentă de flux de public țintă de intrare pentru site-ul dvs. corporativ și chiar pentru paginile de destinație.

Faceți cunoștință cu o serie de postări educaționale pe tema SEO.

Ce este un motor de căutare?

Un motor de căutare este o bază de date mare de documente (conținut). Robotii de căutare accesează cu crawlere resursele și indexează diferite tipuri de conținut, iar aceste documente salvate sunt clasate în căutare.

De fapt, Yandex este un „instantaneu” al Runetului (de asemenea, Turcia și câteva site-uri în limba engleză), iar Google este internetul global.

Un index de căutare este o structură de date care conține informații despre documente și locația cuvintelor cheie în ele.

Conform principiului de funcționare, motoarele de căutare sunt similare între ele; diferențele constau în formulele de clasare (ordonarea site-urilor în rezultatele căutării), care se bazează pe învățarea automată.

În fiecare zi, milioane de utilizatori trimit interogări către motoarele de căutare.

„Scrieți un rezumat”:

"Cumpără":

Dar mai ales sunt interesați...

Cum funcționează un motor de căutare?

Pentru a oferi utilizatorilor răspunsuri rapide, arhitectura de căutare a fost împărțită în 2 părți:

căutare de bază,
metacăutare.

Căutare de bază

Căutarea de bază este un program care caută partea sa din index și furnizează toate documentele care se potrivesc interogării.

Metasearch este un program care procesează o interogare de căutare, determină regionalitatea utilizatorului, iar dacă interogarea este populară, produce o opțiune de căutare gata făcută, iar dacă interogarea este nouă, selectează o căutare de bază și lansează o comandă pentru selectarea documentelor , apoi utilizează învățarea automată pentru a clasifica documentele găsite și pentru a le furniza utilizatorului.

Clasificarea interogărilor de căutare

Pentru a oferi un răspuns relevant utilizatorului, motorul de căutare încearcă mai întâi să înțeleagă de ce are nevoie în mod specific. Interogarea de căutare este analizată și utilizatorul este analizat în paralel.

Interogările de căutare sunt analizate în funcție de următorii parametri:

Lungime;
definiție;
popularitate;
competitivitatea;
sintaxă;
geografie.

Tip de solicitare:

navigare;
informativ;
tranzacționale;
multimedia;
general;
oficial

După analizarea și clasificarea interogării, este selectată o funcție de clasare.

Desemnarea tipurilor de interogări este informații confidențiale, iar opțiunile propuse sunt presupuneri ale specialiștilor în optimizarea motoarelor de căutare.

Dacă un utilizator solicită o interogare generală, motorul de căutare returnează diferite tipuri de documente. Și ar trebui să înțelegeți că prin promovarea paginii comerciale a site-ului în TOP 10 pentru o solicitare generală, aplicați să nu intrați în unul dintre cele 10 locuri, ci în numărul de locuri.
pentru paginile comerciale, care se evidențiază prin formula de clasare. Și, prin urmare, probabilitatea de a se clasa în top pentru astfel de interogări este mai mică.

Învățarea automată MatrixNet este un algoritm introdus în 2009 de Yandex, care selectează o funcție pentru clasarea documentelor pentru anumite interogări.

MatrixNet este folosit nu numai în căutarea Yandex, ci și în scopuri științifice. De exemplu, la Centrul European de Cercetare Nucleară este folosit pentru evenimente rare în volume mari de date (se caută bosonul Higgs).

Datele primare pentru evaluarea eficacității formulei de clasare sunt colectate de departamentul evaluator. Aceștia sunt oameni special instruiți care evaluează un eșantion de site-uri folosind o formulă experimentală conform următoarelor criterii.

Evaluarea calității site-ului

Vital - site-ul oficial (Sberbank, LPgenerator). Interogarea de căutare corespunde site-ului oficial, grupurilor de pe rețelele de socializare, informații despre resurse autorizate.

Util (evaluat 5) - un site care oferă informații detaliate la cerere.

Exemplu - cerere: material banner.

Un site care este evaluat „util” trebuie să conțină următoarele informații:

ce este țesătura banner;
specificații;
fotografii;
feluri;
listă de prețuri;
altceva.

Exemple de interogări în partea de sus:

Relevant+ (scor 4) – Acest scor înseamnă că pagina este relevantă pentru interogarea de căutare.

Relevant - (scor 3) - Pagina nu se potrivește exact cu interogarea de căutare.

Să presupunem că interogarea „Sesiuni Guardians of the Galaxy” afișează o pagină despre un film fără sesiuni, o pagină a unei sesiuni anterioare sau o pagină de trailer pe YouTube.

Irelevant (scor 2) - pagina nu se potrivește cu solicitarea.
Exemplu: numele hotelului afișează numele altui hotel.

Pentru a promova o resursă pentru o solicitare generală sau informativă, trebuie să creați o pagină care să corespundă evaluării „utile”.

Pentru interogări clare, o evaluare „relevant+” este suficientă.

Relevanța este obținută prin corespondența textuală și a linkurilor a paginii cu interogările de căutare.

concluzii

Nu toate interogările pot fi promovate într-o pagină de destinație comercială;
Nu toate solicitările de informații pot fi folosite pentru a promova un site web comercial;
Când promovați o solicitare generală, creați o pagină utilă.

Un motiv comun pentru care un site nu se clasează în top este că conținutul paginii promovate nu corespunde interogării de căutare.

Vom vorbi despre asta în următorul articol, „Lista de verificare pentru optimizarea de bază a site-ului”.

În ultimii ani, serviciile Google și Yandex au devenit parte din viața noastră. În acest sens, mulți se întreabă probabil ce este un motor de căutare? În termeni simpli, este un sistem software conceput pentru a căuta informații pe World Wide Web. Rezultatele sale sunt de obicei prezentate într-un format de listă, adesea numite pagini de rezultate ale motorului de căutare (SERPs). Informațiile pot fi o combinație de pagini web, imagini și alte tipuri de fișiere. Unele motoare de căutare conțin și informații disponibile în baze de date sau directoare publice.

Spre deosebire de directoarele web, care sunt acceptate doar de proprii editori, motoarele de căutare conțin și informații în timp real prin rularea unui algoritm pe crawler-ul web.

Istoria originii

Motoarele de căutare în sine au apărut mai devreme decât World Wide Web - în decembrie 1990. Primul astfel de serviciu s-a numit Archie și a căutat în conținutul fișierelor FTP folosind comenzi.

Ce este un motor de căutare pe Internet? Până în septembrie 1993, World Wide Web a fost indexat în întregime manual. A existat o listă de servere web editată de Tim Berners-Lee care a fost găzduită pe serverul web CERN. Pe măsură ce tot mai multe servere au intrat online, serviciul de mai sus nu a putut ține pasul cu procesarea unei asemenea cantități de informații.

Unul dintre primele motoare de căutare bazate pe căutări web a fost WebCrawler, care a fost lansat în 1994. Spre deosebire de predecesorii săi, a permis utilizatorilor să caute orice cuvânt pe orice pagină web. Acest algoritm a devenit de atunci standardul pentru toate motoarele de căutare majore. A fost și prima decizie cunoscută pe scară largă publicului. Tot în 1994 a fost lansat serviciul Lycos, care a devenit ulterior un mare proiect comercial.

Curând după aceea, au apărut multe motoare de căutare, iar popularitatea lor a crescut semnificativ. Acestea includ Magellan, Excite, Infoseek, Inktomi, Northern Light și AltaVista. Yahoo! a fost una dintre cele mai populare modalități de a găsi pagini web de interes, dar algoritmul său de căutare a funcționat pe propriul director web, mai degrabă decât pe copii cu text integral ale paginilor. Căutătorii de informații ar putea, de asemenea, să răsfoiască directorul în loc să efectueze o căutare prin cuvinte cheie.

O nouă rundă de dezvoltare

Google a îmbrățișat ideea de a vinde interogări de căutare în 1998, începând cu o companie mică numită goto.com. Această mișcare a avut un impact semnificativ asupra afacerii SEO, care de-a lungul timpului a devenit una dintre cele mai profitabile activități de pe Internet.

În jurul anului 2000, motorul de căutare Google a devenit cunoscut pe scară largă. Compania a obținut rezultate mai bune pentru multe căutări printr-o inovație numită PageRank. Acest algoritm iterativ clasifică paginile web pe baza conexiunilor lor cu alte site-uri și pagini, pe baza premisei că sursele bune sau dezirabile sunt adesea menționate de alții. Google a menținut, de asemenea, o interfață minimalistă pentru motorul său de căutare. Dimpotrivă, mulți dintre concurenți au construit un motor de căutare în portalul web. De fapt, Google a devenit atât de popular încât au apărut motoarele de înșelătorie precum Mystery Seeker. Astăzi există multe versiuni regionale ale acestui serviciu, în special motorul de căutare Google.ru, conceput pentru utilizatorii vorbitori de limbă rusă.

Cum funcționează aceste servicii?

Cum sunt afișate clasamentele și rezultatele? Ce sunt motoarele de căutare din punct de vedere al algoritmului de acțiune? Aceștia obțin informații prin accesarea cu crawlere web de la site la site. Robotul sau păianjenul verifică numele fișierului robots.txt standard care îi este adresat înainte de a trimite anumite informații pentru indexare. Se concentrează pe mulți factori, și anume anteturi, conținutul paginii, JavaScript, foi de stil în cascadă (CSS) și marcaj HTML standard al conținutului informațional sau metadatelor din metaetichetele HTML.

Indexarea înseamnă asocierea cuvintelor și a altor simboluri identificabile găsite pe paginile web cu numele lor de domeniu și câmpurile bazate pe HTML. Asociațiile sunt create într-o bază de date accesibilă public disponibilă pentru interogări de căutare pe web. Solicitarea utilizatorului poate fi de un singur cuvânt. Un index vă ajută să găsiți informații legate de o interogare cât mai repede posibil.

Unele dintre tehnicile de indexare și stocare în cache sunt secrete comerciale, în timp ce accesarea cu crawlere web este un proces simplu de vizitare a tuturor site-urilor web într-o manieră sistematică.

Între vizitele robotului, o versiune stocată în cache a paginii (o parte sau tot conținutul necesar pentru a-l afișa) stocată în memoria de lucru a motorului de căutare este trimisă rapid utilizatorului solicitant. Dacă vizita este întârziată, motorul de căutare poate acționa pur și simplu ca un proxy web. În acest caz, pagina poate diferi de indecșii de căutare. Sursa stocată în cache arată versiunea ale cărei cuvinte au fost indexate, deci poate fi utilă dacă pagina reală a fost pierdută.

Arhitectură la nivel înalt

De obicei, un utilizator introduce o interogare într-un motor de căutare sub forma mai multor cuvinte cheie. Indexul are deja numele site-urilor care conțin aceste cuvinte cheie și sunt afișate instantaneu. Adevărata sarcină de lucru este crearea de pagini web care sunt o listă cu rezultatele căutării. Fiecare pagină din întreaga listă trebuie să fie clasată în funcție de informațiile din indexuri.

În acest caz, elementul de rezultat superior necesită căutarea, reconstruirea și marcarea fragmentelor care arată contextul din cuvintele cheie potrivite. Aceasta este doar o parte a procesării fiecărei pagini web din rezultatele căutării, iar paginile ulterioare (lângă ea) necesită cea mai mare parte a acestei procesări ulterioare.

Pe lângă simpla căutare a cuvintelor cheie, motoarele de căutare oferă propriile operatori GUI sau comandați și parametri de căutare pentru a rafina rezultatele.

Ele oferă utilizatorului controalele necesare printr-o buclă de feedback, filtrare și ponderare în timp ce rafinează datele căutate pe baza paginilor inițiale ale primelor rezultate de căutare. De exemplu, din 2007, Google.com a făcut posibilă filtrarea listei rezultate după dată făcând clic pe „Afișați instrumentele de căutare” în coloana din stânga a paginii originale cu rezultate și apoi selectând intervalul de date dorit.

Cereri variate

Majoritatea motoarelor de căutare acceptă utilizarea operatorilor booleeni ȘI, SAU și NU pentru a ajuta utilizatorii finali să-și rafineze interogarea. Unii operatori sunt proiectați pentru literali, care permit utilizatorului să rafinați și să extindă termenii de căutare. Robotul caută cuvinte sau expresii în același mod în care caută comenzile introduse. Unele motoare de căutare oferă o funcție de căutare avansată care permite utilizatorilor să determine distanța dintre cuvintele cheie.

Există și căutarea bazată pe concept, în care cercetarea presupune utilizarea analizei statistice pe paginile care conțin cuvintele sau expresiile pe care le cauți. În plus, interogările în limbaj natural permit utilizatorului să introducă o întrebare în același mod în care ar pune-o unui om (cel mai tipic exemplu este ask.com).

Utilitatea unui motor de căutare depinde de relevanța setului de rezultate pe care îl returnează. Pot exista milioane de pagini web care conțin un anumit cuvânt sau expresie, dar unele pot fi mai relevante, mai populare sau mai autorizate decât altele. Majoritatea motoarelor de căutare folosesc metode de clasare pentru a asigura cele mai bune rezultate.

Modul în care un motor de căutare decide care pagini sunt cele mai potrivite pentru o interogare și în ce ordine ar trebui să fie afișate sursele găsite, variază foarte mult de la un robot la altul. Aceste metode se schimbă, de asemenea, în timp, pe măsură ce utilizarea internetului se schimbă și se dezvoltă noile tehnologii.

Ce este un motor de căutare: soiuri

Există două tipuri principale de motoare de căutare. Primul este un sistem de cuvinte cheie predefinite și ordonate ierarhic cu care oamenii l-au programat în masă. Al doilea este un sistem care generează un „index inversat” prin analiza textelor găsite.

Majoritatea motoarelor de căutare sunt servicii comerciale susținute de veniturile din publicitate și, astfel, unele permit agenților de publicitate să se claseze în rezultatele pe care le afișează contra cost. Serviciile care nu acceptă bani pentru clasare fac bani prin difuzarea de anunțuri contextuale lângă site-urile pe care le afișează. Astăzi, promovarea în motoarele de căutare este unul dintre cele mai profitabile câștiguri de pe internet.

Ce servicii sunt cele mai comune?

Google este cel mai popular motor de căutare din lume, cu o cotă de piață de 80,52% în martie 2017.

Google - 80,52%
Bing - 6,92%
Baidu - 5,94%
Yahoo! - 5,35%

Motoare de căutare în Rusia și Asia de Est

În Rusia și în unele țări din Asia de Est, Google nu este cel mai popular serviciu. În rândul utilizatorilor ruși, motorul de căutare Yandex este lider în popularitate (61,9%) față de Google (28,3%). În China, Baidu este cel mai popular serviciu. Portalul de căutare Naver din Coreea de Sud este folosit pentru 70% din căutările online din țară. De asemenea, Yahoo! în Japonia și Taiwan este cel mai popular instrument pentru găsirea datelor necesare.

Alte motoare de căutare rusești binecunoscute sunt Mail și Rambler. Odată cu începutul dezvoltării Runetului, ei s-au bucurat de o mare popularitate, dar acum și-au pierdut foarte mult poziția.

Restricții de căutare și criterii

Deși motoarele de căutare sunt programate să clasifice site-urile web pe baza unora dintre popularitatea și relevanța lor, cercetarea empirică indică diferite criterii politice, economice și sociale pentru selectarea informațiilor pe care le furnizează. Aceste părtiniri pot fi un rezultat direct al proceselor economice (de exemplu, companiile care fac publicitate unui motor de căutare pot deveni, de asemenea, mai populare în rezultatele căutării organice) și politice (de exemplu, eliminarea rezultatelor căutării din cauza legilor locale). De exemplu, Google nu va afișa unele site-uri neonaziste din Franța și Germania, unde negarea Holocaustului este ilegală.

Motoare de căutare creștine, islamice și evreiești

Creșterea globală a internetului și a media electronică în lumea musulmană în ultimul deceniu i-a determinat pe adepții islamici din Orientul Mijlociu și subcontinentul asiatic să încerce să-și creeze propriile motoare de căutare și portaluri filtrate care să permită utilizatorilor să efectueze căutări sigure.

Astfel de servicii conțin filtre care clasifică în continuare site-urile web ca „halal” sau „haram”, pe baza interpretării moderne de experți a „Legii Islamului”.

Portalul ImHalal a apărut online în septembrie 2011, iar Halalgoogling în iulie 2013. Ei folosesc filtre haram bazate pe algoritmi de la Google și Bing.

Alte motoare de căutare orientate religios includ Jewgle (versiunea evreiască a Google) și SeekFind.org, bazat pe creștin. Ei filtrează site-urile care neagă sau degradează credința lor.

Un motor de căutare sau pur și simplu „motor de căutare” este unul care caută pagini de Internet în conformitate cu solicitarea utilizatorului. Cel mai faimos motor de căutare din lume este Google, cel mai popular din Rusia este Yandex, iar unul dintre cele mai vechi motoare de căutare este Yahoo. În arhitectura motorului de căutare putem distinge motor de căutare– nucleul sistemului, reprezentat de un set de module software; baza de date sau index, care stochează informații despre toate resursele de Internet cunoscute motorului de căutare; și un set de site-uri care sunt puncte de intrare utilizatorii în sistem (www.google.com, www.yandex.ru, ru.yahoo.com etc.). Toate acestea corespund arhitecturii clasice pe trei niveluri a sistemelor informatice: există o interfață cu utilizatorul, logica de afaceri, care în acest caz este reprezentată de implementarea algoritmilor de căutare și o bază de date.

Specificul căutării pe Internet

La prima vedere, căutarea pe Internet nu este mult diferită de căutarea obișnuită a informațiilor, de exemplu, de la procesare la o bază de date sau de sarcina de a căuta un fișier pe . Așa credeau și dezvoltatorii primelor motoare de căutare pe Internet, dar cu timpul și-au dat seama că s-au înșelat...

Prima diferență între căutarea pe Internet și căutarea obișnuită este că algoritmul de căutare pentru aceeași bază de date presupune că structura sa este cunoscută dinainte de motorul de căutare și de autorul interogării. Pe Internet, din motive evidente, nu este cazul. Paginile de internet nu formează o structură de directoare, ci o rețea, care afectează și algoritmii de căutare, iar formatul datelor postate pe resursele de pe Internet nu este controlat de nimeni.

A doua diferență, ca una dintre consecințele primei, este că cererea este prezentată nu ca un set de valori ale parametrilor (criterii de căutare), ci ca text scris de o persoană în limba sa naturală. Astfel, înainte de a începe căutarea, mai trebuie să înțelegeți ce dorește exact autorul cererii. Permiteți-mi să notez că nu este pentru o altă persoană să înțeleagă, ci pentru un computer.

A treia diferență este mai puțin evidentă, dar nu mai puțin fundamentală: într-un catalog sau bază de date, toate elementele au drepturi egale. Există concurență pe Internet și, în consecință, o împărțire în „furnizori de informații de încredere” și surse similare ca statut cu „gunoaiele de informații”. Acesta este modul în care oamenii clasifică resursele, iar acest lucru este valabil și pentru motoarele de căutare.

Și în concluzie, trebuie adăugat că zona de căutare este de miliarde de pagini, de câțiva kilobytes sau mai mult fiecare. Aproximativ zece milioane de pagini sunt adăugate zilnic și același număr este actualizat. Toate acestea sunt prezentate în diverse formate digitale. Din păcate, chiar și tehnologiile și resursele moderne disponibile liderilor pieței de servicii de căutare pe Internet nu le permit să proceseze toată această diversitate „din mers” și în totalitate.

În ce constă un motor de căutare?

În primul rând, este important să înțelegem încă una și, probabil, cea mai semnificativă diferență dintre munca unui motor de căutare pe Internet și munca oricărui alt sistem informațional care caută în diferite tipuri de cataloage și baze de date. Motorul de căutare pe Internet nu caută informații între ceea ce se află pe Internet în momentul primirii cererii, ci încearcă să genereze un răspuns pe baza propriei stocări de informații - o bază de date numită index, unde stochează un dosar despre tot ceea ce se cunoaște. la acesta și îl actualizează periodic. Cu alte cuvinte, motorul de căutare nu funcționează cu originalul, ci cu o proiecție a intervalului de valori acceptabile de căutare. Toate cele mai recente modificări de pe Internet pot fi reflectate în rezultatele căutării numai după ce paginile corespunzătoare sunt indexate- adăugat la indexul motorului de căutare. Deci, un sistem de căutare, la o primă aproximare, constă dintr-un motor de căutare, o bază de date sau index (index) și puncte de intrare în sistem.

Acum, pe scurt, despre ce constă un motor de căutare:

Păianjen sau păianjen. O aplicație care descarcă pagini de resurse de Internet. Păianjenul nu se „crawlează” nicăieri - solicită doar conținutul paginilor în același mod ca un browser de internet obișnuit, trimițând o solicitare către serverul HTTP și primind un răspuns de la acesta. Odată ce conținutul paginii este descărcat, acesta este trimis către indexator și crawler, care sunt discutate mai jos.

Indexator. Indexatorul efectuează o analiză inițială a conținutului paginii descărcate, selectează părțile principale (titlul paginii, descrierea, link-uri, titluri etc.) și le aranjează pe toate în secțiuni ale bazei de date de căutare - o plasează în indexul motorului de căutare. Acest proces se numește indexarea resurselor de internet, de unde și numele subsistemului însuși. Pe baza rezultatelor analizei inițiale, indexatorul poate decide, de asemenea, că pagina nu este deloc „demnă” de a fi în index. Motivele acestei decizii pot fi diferite: pagina nu are un nume, este o copie exactă a unei alte pagini aflate deja în index sau conține link-uri către resurse interzise de lege.

Tractor pe şenile. Acest „animal” este conceput să „se târască” de-a lungul linkurilor disponibile pe pagina descărcată de păianjen. Crawler-ul analizează căile care duc de la pagina curentă către alte secțiuni ale site-ului sau către pagini de resurse externe de Internet și determină ordinea ulterioară în care păianjenul traversează firele World Wide Web. Este crawler-ul care găsește pagini care sunt noi pentru motorul de căutare și le transmite păianjenului. Lucrarea crawler-ului se bazează pe algoritmi de căutare a graficului de lățime și adâncime.

Subsistem pentru procesarea și emiterea rezultatelor (Motorul de căutare și Motorul de rezultate). Cea mai importantă parte a oricărui motor de căutare. Dezvoltatorii companiei păstrează algoritmii de operare ai acestui subsistem în strict secret, deoarece sunt secret comercial. Această parte a motorului de căutare este responsabilă pentru caracterul adecvat al răspunsului motorului de căutare la solicitarea utilizatorului. Există două componente principale aici:
- Subsistemul de clasare. Variind– acestea sunt pagini ale site-urilor de internet în conformitate cu relevanța lor pentru o anumită solicitare. Relevanța paginii– acesta, la rândul său, este gradul în care conținutul paginii corespunde sensului cererii, iar motorul de căutare determină această valoare în mod independent, pe baza unui număr imens de parametri. Clasamentul este partea cea mai misterioasă și controversată a „inteligenței artificiale” a unui motor de căutare. Clasamentul unei pagini, pe lângă structura și conținutul acesteia (conținut), este influențat și de: numărul și calitatea linkurilor care duc către această pagină de pe alte site-uri; vechimea domeniului site-ului propriu-zis; natura comportamentului utilizatorilor care vizualizează pagina și mulți alți factori.
- Subsistem pentru emiterea rezultatelor. Sarcinile acestui subsistem includ interpretarea cererii utilizatorului, traducerea acesteia în limbajul interogărilor de index structurat și generarea paginilor cu rezultatele căutării. Pe lângă analizarea textului interogării în sine, motorul de căutare poate lua în considerare și:
  - Contextul cererii, format pe baza semnificației solicitărilor făcute anterior de către utilizator. De exemplu, dacă un utilizator vizitează adesea site-uri cu subiecte auto, atunci când i se cere cuvântul „Volga” sau „Oka”, probabil că dorește să primească informații despre mașinile acestor mărci și nu despre unde încep rușii cu același nume. și unde curg râurile. Se numeste căutare personalizată, când rezultatul pentru aceeași cerere pentru utilizatori diferiți este semnificativ diferit.
  - Preferintele utilizatorului, despre care acesta (motorul de căutare) poate „ghici”, analizând legăturile selectate de utilizator pe paginile cu rezultatele căutării. Aceasta este o altă modalitate de a ajusta contextul unei solicitări: utilizatorul, prin acțiunile sale, pare să spună mașinii ce anume a vrut să găsească. De regulă, motoarele de căutare încearcă să adauge pagini la rezultatele căutării care sunt relevante pentru interogare, dar legate de domenii destul de diferite ale vieții. Să presupunem că un utilizator este interesat de filme și, prin urmare, selectează adesea link-uri către pagini cu anunțuri de film, chiar dacă aceste pagini nu sunt în întregime relevante pentru solicitarea inițială. Atunci când generează un răspuns la următoarea sa cerere, sistemul poate acorda preferință paginilor cu descrieri ale filmelor ale căror titluri conțin cuvinte din textul solicitării.
  - Regiune, care este foarte important la procesarea cererilor comerciale legate de achiziționarea de bunuri și servicii de la furnizori locali. Dacă sunteți interesat de vânzări și reduceri și vă aflați în Moscova, atunci cel mai probabil nu sunteți deloc interesat de ce promoții pe această temă se desfășoară în Sankt Petersburg, cu excepția cazului în care indicați acest lucru în mod explicit în textul cererii. În primul rând, informațiile despre vânzările din Moscova ar trebui să apară în rezultatele căutării. Astfel, motoarele de căutare moderne împart interogările în geodependentȘi geo-independent. Cel mai probabil, dacă motorul de căutare decide că interogarea dvs. este geo-dependentă, atunci îi adaugă automat un indicator de regiune, pe care încearcă să-l determine din informații despre furnizorul dvs. de internet.
  - Timp. Motoarele de căutare trebuie uneori să analizeze când au avut loc evenimentele descrise pe pagină. La urma urmei, informațiile devin în mod constant depășite, iar utilizatorul are nevoie în primul rând de link-uri către cele mai recente știri, previziuni curente și anunțuri despre evenimente care nu s-au încheiat încă sau sunt programate să aibă loc în viitor. Înțelegerea faptului că relevanța unei pagini depinde de timp și potrivirea acesteia cu momentul în care a fost executată interogarea necesită, de asemenea, o cantitate suficientă de inteligență din partea motorului de căutare.
  În continuare, motorul de căutare caută cel mai apropiat sens interogare cheieîn index și generează rezultate prin sortarea legăturilor în ordinea descrescătoare a relevanței lor. Fiecare interogare cheie din index are un clasament separat pentru paginile relevante pentru ea. Sistemul nu creează o nouă interogare de cheie pentru fiecare combinație de litere și numere, dar face acest lucru pe baza unei analize a frecvenței anumitor interogări ale utilizatorilor. Motorul de căutare poate amesteca, de asemenea, clasamentele din diferite interogări cheie în rezultatele căutării, dacă consideră că acesta este ceea ce caută utilizatorul.

Principii generale de funcționare a motorului de căutare

Trebuie să înțelegeți că serviciile de căutare pe Internet sunt o afacere foarte, foarte profitabilă. Nu trebuie să intri în detalii despre cum trăiesc companii precum Google și Yandex, deoarece cea mai mare parte a profitului lor este venitul din publicitatea contextuală. Și deoarece căutarea pe Internet este o afacere extrem de profitabilă, atunci concurența dintre astfel de companii este foarte serioasă. Ce determină competitivitatea pe piața de căutare pe Internet? Răspunsul este calitatea rezultatelor motoarelor de căutare. Este logic că, cu cât este mai mare, cu atât sistemul devine mai mulți utilizatori noi și cu atât este mai valoroasă publicitatea contextuală plasată pe paginile aceleiași rezultate de căutare. Dezvoltatorii de motoare de căutare depun mult efort pentru a-și „curăța” rezultatele căutării de diverse tipuri de gunoi de informații, numite în mod popular spam. Cum se face acest lucru va fi descris mai detaliat într-un articol separat, dar aici voi prezenta principiile generale ale comportamentului motorului de căutare, formulate sub formă de concluzii asupra tuturor celor de mai sus.

Motorul de căutare, reprezentat de păianjeni și crawler-uri, scanează în mod constant internetul pentru pagini noi și actualizări la cele existente, deoarece informațiile irelevante sunt evaluate mai puțin.

Motorul de căutare actualizează periodic clasamentul resurselor în funcție de relevanța acestora pentru interogările cheie, deoarece paginile noi apar constant în index. Acest proces se numește actualizarea rezultatelor căutării.

Din cauza volumelor uriașe de informații postate pe World Wide Web și a resurselor limitate ale motorului de căutare în sine, motorul de căutare încearcă întotdeauna să descarce doar ceea ce este (în opinia sa) necesar. Arsenalul său include tot felul de filtre care opresc mult ceea ce este inutil deja în etapa de indexare sau aruncă spam-ul din index pe baza rezultatelor actualizării rezultatelor căutării.

Atunci când analizează o solicitare, motoarele de căutare moderne încearcă să ia în considerare nu numai textul solicitării în sine, ci și mediul acesteia: contextul și preferințele utilizatorului, care au fost menționate mai devreme, precum și momentul solicitării, regiunea. , și mult mai mult.

Relevanța unei anumite pagini este influențată nu numai de parametrii ei interni (structură, conținut), ci și de parametrii externi, cum ar fi link-urile către pagină de pe alte site-uri și comportamentul utilizatorului la vizualizarea acesteia.

Munca motoarelor de căutare este îmbunătățită în mod constant. Funcționarea ideală a unui motor de căutare (pentru oameni) este posibilă doar dacă toate deciziile privind indexarea și clasarea sunt luate de o comisie formată dintr-un număr mare de specialiști din toate domeniile și domeniile activității umane. Deoarece acest lucru este nerealist, un astfel de comision este înlocuit de sisteme expert, algoritmi de căutare euristică și alte elemente de inteligență artificială. Probabil că munca tuturor acestor subsisteme ar putea produce și rezultate mai adecvate dacă ar fi posibilă prelucrarea absolută a tuturor datelor disponibile în domeniul public pe Internet, dar acest lucru este practic imposibil. Inteligența artificială imperfectă și resursele limitate sunt cele două motive principale pentru care rezultatele căutării nu mulțumesc întotdeauna utilizatorii, dar toate acestea pot fi vindecate cu timpul. Astăzi, după părerea mea, munca celor mai faimoase și mari motoare de căutare răspunde pe deplin nevoilor și așteptărilor utilizatorilor lor.

Cel mai popular serviciu web al timpului nostru este motorul de căutare. Totul este de înțeles aici, pentru că vremurile în care reprezentanții primilor internauți puteau observa produse noi pe Internet au trecut de mult.

Apar și se acumulează atât de multe informații încât a devenit foarte greu pentru o persoană să găsească exact ceea ce are nevoie. Imaginați-vă cum ar fi să căutați pe Internet dacă utilizatorul obișnuit ar trebui să caute informații de la Dumnezeu știe unde. Pur și simplu nu înțeleg unde, pentru că nu veți găsi multe informații cu o căutare manuală.

Motor de căutare, ce este?

Este bine dacă utilizatorul cunoaște deja site-uri care pot avea informațiile necesare, dar ce să facă altfel? Pentru a ușura viața unei persoane în găsirea informațiilor necesare pe Internet, au fost inventate motoarele de căutare sau pur și simplu motoarele de căutare. Motorul de căutare îndeplinește o funcție foarte importantă, fără de care Internetul nu ar fi la fel cum suntem obișnuiți să-l vedem - aceasta este căutarea de informații pe Internet.

Sistem de căutare- acesta este un site web special sau cu alte cuvinte un site care oferă utilizatorilor, la cererea acestora, hyperlinkuri către pagini ale site-urilor care răspund la o anumită interogare de căutare.

Ca să fiu puțin mai precis, este o căutare de informații pe Internet, realizată datorită unui set funcțional software și hardware și a unei interfețe web pentru interacțiunea cu utilizatorii.

Pentru interacțiunea umană cu motorul de căutare, a fost creată o interfață web, adică un shell vizibil și ușor de înțeles. Această abordare a dezvoltatorilor de motoare de căutare face căutarea mai ușoară pentru mulți oameni. De regulă, căutările sunt efectuate folosind motoarele de căutare pe Internet, dar există și sisteme de căutare pentru servere FTP, anumite tipuri de bunuri pe World Wide Web sau informații de știri sau alte direcții de căutare.

Căutarea poate fi efectuată nu numai prin conținutul text al site-urilor, ci și prin alte tipuri de informații pe care o persoană le poate căuta: imagini, videoclipuri, fișiere de sunet etc.

Cum caută un motor de căutare?

Căutarea pe Internet în sine, la fel ca și navigarea pe site-uri web, este posibilă folosind un browser de internet. Numai după ce utilizatorul și-a specificat interogarea în bara de căutare, căutarea în sine este efectuată direct.

Orice sistem de căutare conține o parte software pe care se bazează întregul mecanism de căutare; se numește motor de căutare - acesta este un pachet software care oferă posibilitatea de a căuta informații. După ce contactează un motor de căutare, o persoană generează o interogare de căutare și o introduce în bara de căutare, motorul de căutare generează o pagină cu o listă de rezultate ale căutării, cele mai relevante, în opinia motorului de căutare, sunt situate mai sus.

Relevanța căutării - căutarea celor mai relevante materiale la solicitarea utilizatorului și plasarea de hyperlinkuri pe acestea în pagina cu rezultatele căutării cu rezultate mai precise deasupra altora. Distribuția în sine a rezultatelor se numește clasarea site-ului.

Deci, cum își pregătește un motor de căutare materialele pentru publicare și cum caută însuși motorul de căutare informații? Colectarea informațiilor în rețea este facilitată de un robot sau bot unic pentru fiecare motor de căutare, care are și o serie de alte sinonime, cum ar fi crawler sau spider, iar activitatea sistemului de căutare în sine poate fi împărțită în trei etape:

Prima etapă a funcționării unui motor de căutare include scanarea site-urilor din rețeaua globală și colectarea de copii ale paginilor web pe propriile servere. Acest lucru creează o cantitate imensă de informații care nu au fost încă procesate și nu sunt potrivite pentru rezultatele căutării.

A doua etapă a muncii motorului de căutare se rezumă la punerea în ordine a informațiilor primite anterior, în prima etapă, de pe site-uri. Sortarea este realizată în așa fel încât în cel mai mic timp să fie favorabilă căutării de foarte înaltă calitate pe care utilizatorii se așteaptă de fapt de la un motor de căutare. Etapa se numește indexare, ceea ce înseamnă că paginile sunt deja pregătite pentru emitere, iar baza de date actuală va fi considerată un index.

Este tocmai a treia etapă care determină rezultatele căutării, după primirea unei cereri de la clientul său, pe baza cuvintelor cheie sau a cuvintelor cheie apropiate specificate în cerere. Acest lucru facilitează selectarea informațiilor cele mai relevante pentru cerere și livrarea ulterioară a acesteia. Întrucât există multe, multe informații, motorul de căutare realizează clasament în conformitate cu algoritmii săi.
Cel mai bun motor de căutare este considerat a fi cel care poate furniza materialul care răspunde cel mai corect solicitării utilizatorului. Dar și aici pot exista rezultate care au fost influențate de persoane interesate să-și promoveze site-ul; astfel de site-uri, deși nu întotdeauna, apar adesea în rezultatele căutării, dar nu pentru mult timp.

Deși lideri mondiali au fost deja identificați în multe regiuni, motoarele de căutare continuă să-și dezvolte căutarea de înaltă calitate. Cu cât o pot oferi o căutare mai bună, cu atât mai mulți oameni o vor folosi.

Cum se utilizează motorul de căutare?

Ce este un motor de căutare și cum funcționează este deja clar, dar cum să-l folosești corect? Majoritatea site-urilor au întotdeauna o bară de căutare, iar lângă ea există un buton Găsiți sau Căutați. O interogare este introdusă în linia de căutare, după care trebuie să apăsați butonul de căutare sau, așa cum se întâmplă mai des, apăsați tasta Enter de pe tastatură și în câteva secunde primiți rezultatul interogării în formular a unei liste.

Dar nu este întotdeauna posibil să obțineți răspunsul corect la o interogare de căutare prima dată. Pentru a vă asigura că căutarea a ceea ce doriți nu devine dureroasă, trebuie să compuneți corect interogarea de căutare și să urmați recomandările descrise mai jos.

Compunem corect interogarea de căutare

Următoarele vor oferi sfaturi pentru utilizarea motorului de căutare. Respectarea unor trucuri și reguli atunci când căutați informații într-un motor de căutare va face posibilă obținerea rezultatului dorit mult mai rapid. Urmați aceste instrucțiuni:

Ortografia corectă a cuvintelor asigură numărul maxim de potriviri cu obiectul informațional dorit (Deși motoarele de căutare moderne au învățat deja să corecteze greșelile de ortografie, acest sfat nu trebuie neglijat).
Folosind sinonime în interogarea dvs., puteți acoperi o gamă mai largă de căutare.
Uneori, schimbarea unui cuvânt din textul interogării poate aduce rezultate mai bune; reformatați interogarea.
Aduceți specificitate interogării dvs., utilizați aparițiile exacte ale expresiilor care ar trebui să definească esența principală a căutării.
Experimentați cu cuvinte cheie. Folosirea cuvintelor cheie și a expresiilor poate ajuta la identificarea punctului principal, iar motorul de căutare va returna rezultate mai relevante.

Deci, ceea ce este un motor de căutare nu este altceva decât o oportunitate de a găsi informații de interes și de a le folosi, de obicei, complet gratuit, de a învăța ceva, de a înțelege ceva sau de a trage concluzia corectă pentru tine. Mulți oameni nu își mai pot imagina viața fără căutare vocală, în care nu este nevoie să tastați text, trebuie doar să spuneți cererea dvs., iar dispozitivul de introducere a informațiilor de aici este un microfon. Toate acestea indică dezvoltarea constantă a tehnologiilor de căutare pe Internet și necesitatea acestora.