Primele motoare de căutare în rețea pentru Web au început în decembrie 1990: căutările utilizatorilor WHOIS datează din 1982[5] și căutările utilizatorilor pe diferite rețele de căutare . Primul motor de căutare bine documentat care a preluat filtre chimice, adică fișiere FOTO, a fost Archie, care a debutat pe 10 septembrie 1990.[7]
În septembrie 1993, World Wide Web era în întregime manuscris. Aceasta a fost o listă de servere găzduite de CERN Web Servers, editată de Tim Berners-Lee. O previzualizare a catalogului din 1992[8] încă există, dar pe măsură ce mai multe gazde s-au conectat, catalogul principal nu a putut ține pasul. Noile servere au fost anunțate pe site-ul NC SA la „Ce este nou!” raportate.[9]
Introducerea lui Gopher (fondată de Mark McCahill de la Universitatea din Minnesota în 1991) a condus la două noi programe de cercetare, Veronica și Jughead. Ca și Archie, caută numele și adresele fișierelor arhivate în taxonomia Gopher. Veronica (Very Easy Rodent-oriented Net-wide Index to Computerized Archives) a furnizat termeni de căutare pentru majoritatea titlurilor de meniu Gopher din catalogul Gopher. Jughead (Jones In Universal Gopher Hierarchy Excavation And Display) a fost un meniu de instrumente pentru preluarea datelor de pe anumite servere Gopher. Deși numele motorului de căutare „Archie Search Engine” nu se referă la benzile desenate Archie, Veronica și Jughead sunt personaje din serie și, prin urmare, se referă la predecesor.
În vara anului 1993, nu exista niciun motor de căutare pe Internet, deși s-au păstrat multe cataloage diferite. Óscar Nuestras de la Universitatea din Geneva a scris un set de scripturi Perl care redau în mod regulat aceste pagini și le scriu într-un format standard. baza Catalogului W3, primul motor de căutare web primitiv, lansat pe 2 septembrie
1993. World Wide Web Wanderer și l-a folosit pentru a crea un folder numit „Wanda”. Walkers a fost conceput pentru a măsura dimensiunea World Wide Web, ceea ce a făcut până la sfârșitul anului 1995. Un alt motor de căutare web, All Web, a apărut în noiembrie 1993. Web-ul nu a folosit crawler-uri web. Alegeți, dar depinde de notificarea site-ului. Păstrează o evidență a existenței fișierului într-un format specific pentru fiecare site.
Jump Station (creată de Jonathan Fletcher în decembrie 1993[16]) a folosit crawling-ul web pentru a găsi și indexa pagini web și a folosit un formular web pentru a comunica cu motorul de căutare. A fost așadar primul instrument de localizare a resurselor web care combina cele trei funcții esențiale ale unui motor de căutare web (navigație, indexare și căutare), descrise mai jos. Sortarea și, prin urmare, căutarea, a fost limitată la adrese și URL-uri găsite de Spider din cauza resurselor limitate disponibile pe platforma pe care rula.
Unul dintre primele motoare de căutare „full text” a fost Webcrawler, lansat în 1994. Spre deosebire de predecesorii săi, acesta permitea utilizatorilor să caute orice cuvânt pe orice pagină web, care de atunci a devenit standardul pentru toate motoarele de căutare majore. A fost, de asemenea, un motor de căutare popular. Tot în 1994, Lycos (înființată la Universitatea Carnegie Mellon) a început și a devenit o mare întreprindere comercială.
Primul motor de căutare TV popular a fost Yahoo! anchetă.[17] Yahoo! A fost fondată în ianuarie 1994 de Jerry Yang și David Filo. a fost un director de internet pe nume Yahoo! Carte de telefoane. În 1995, a fost adăugată o funcție de căutare pentru a permite utilizatorilor să folosească Yahoo! Lista.[18][19] A fost una dintre cele mai populare moduri de a găsi site-uri web interesante, dar metoda de căutare a funcționat folosind un director web în loc de copii full-text ale site-urilor web.
Curând după aceea, multe motoare de căutare au apărut în competiție pentru popularitate. Rezultatul a fost Magellan, Excite, Infoseek, Inktomi, Northern Light și AltaVista. Persoanele care caută informații pot căuta și în director în loc să folosească termeni de căutare.
În 1996, Robin Li a dezvoltat algoritmul de clasificare a site-urilor web RanDex pentru a clasifica paginile cu rezultate ale motoarelor de căutare [20][21][22] și i s-a acordat un brevet american pentru această tehnologie.[23] A fost primul motor de căutare care a folosit indexarea hyperlink pentru a măsura calitatea site-ului [24] înainte ca Google să depună un brevet foarte funcțional asupra algoritmului doi ani mai târziu, în 1998. [25] Larry Page a citat munca lui Li în unele dintre cărțile sale. Brevet din SUA pentru PageRank.[26] Li a aplicat apoi tehnologia sa anterioară motorului de căutare Baidu, pe care l-a fondat în China și l-a lansat în 2000.
În 1996, Netscape dorea să ofere un motor de căutare cu o ofertă unică, funcția de căutare a Netscape Browser. Interesul a fost atât de mare încât Netscape a contractat cu cinci motoare de căutare majore: pentru 5 milioane de dolari pe an, fiecare motor de căutare ar schimba motorul de căutare Netscape de pe site. Primele cinci motoare de căutare au fost Yahoo!, Magellan, Lycos, Infoseek și Excite.
Google a avut ideea de a vinde cuvinte cheie în 1998 din micul motor de căutare goto.com. Această decizie a avut un impact semnificativ asupra industriei motoarelor de căutare, care a trecut dintr-o luptă pentru a deveni una dintre cele mai profitabile companii de pe Internet.
Motoarele de căutare au fost, de asemenea, cunoscute drept una dintre cele mai strălucitoare vedete ale goanei investițiilor pe internet care a izbucnit la sfârșitul anilor 1980.[30] Mai multe companii au intrat pe piață în mod dramatic și au realizat profituri record prin IPO. Unii au renunțat la cercetările generale și la publicațiile de specialitate precum B.Northern Lighting. Multe companii de motoare de căutare au căzut în bula dotcom, un boom de piață speculativ care a început în martie
2000
. Compania a făcut o mulțime de cercetări folosind un algoritm numit PageRank, care a fost explicat mai târziu în Anatomy of a Search Engine de către fondatorii Google, Sergey Brin și Larry Page.[4] Acest algoritm iterativ clasifică site-urile în funcție de numărul și PageRank-ul altor site-uri și pagini care leagă, presupunând că site-urile bune sau de dorit sunt conectate mai frecvent decât altele. Brevetul PageRank al lui Larry Page citează brevetul anterior al lui Robin Li ca o influență.[26][22] De asemenea, Google a redus la minimum interfața cu utilizatorul motorului de căutare. Pe de altă parte, mulți concurenți au portaluri integrate pentru motoarele de căutare. De fapt, motorul de căutare Google a devenit atât de popular încât au apărut motoare de căutare false precum Mystery Seeker.
În 2000, Yahoo! a oferit un serviciu de căutare bazat pe motorul de căutare Inktomi. Yahoo! a achiziționat Ink Tom în 2002 și Overture (proprietarul AlltheWeb și AltaVista) în 2003. Yahoo! A migrat la motorul de căutare Google în 2004, când și-a lansat propriul motor de căutare bazat pe tehnologia fuzionată din achizițiile corporative.
Microsoft a publicat pentru prima dată rezultatele căutării MSN Search în Ink Tom în toamna anului 1998. La începutul lui 1999, site-ul a început să publice intrări Look Smart printre rezultatele Inktomi. Pentru o scurtă perioadă în 1999, căutările MSN au folosit rezultatele AltaVista. În 2004, Microsoft a început tranziția către propria tehnologie de căutare, alimentată de propriul motor de căutare (numit msnbot).
Motorul de căutare Bing al Microsoft redenumit a fost lansat la 1 iunie 2009. La 29 iulie 2009, Yahoo! și Microsoft au încheiat un acord prin care Yahoo! Cercetarea a fost realizată folosind tehnologia Microsoft Bing.
Din 2019, motoarele de căutare active includ Google, Petal, Sogou, Baidu, Bing, Megablast, Moje, DuckDuckGo și Yandex.
Motoarele de căutare vă obțin informațiile accesând cu crawlere de la o pagină la alta. „Spider” controlează numele implicit al fișierului Robots.txt atribuit acestuia. Fișierul robots.txt conține instrucțiuni pentru roboți, indicând ce pagini să acceseze cu crawlere și care nu. După ce verifică fișierul robots.txt și l-a găsit sau nu, robotul returnează anumite informații la index pe baza informațiilor diferitelor elemente, cum ar fi: B. Anteturi, Conținutul paginii, JavaScript, Stil CSS Foi, Titluri sau Descrierea dvs. conținut în câmpurile de descriere a conținutului HTML. După un anumit număr de vizite, date indexate sau o anumită perioadă de timp pe pagină, păianjenul nu se mai târăște și își continuă drumul. „Niciun păianjen web nu poate accesa cu crawlere întregul web. În schimb, din cauza numărului mare de site-uri web, capcane pentru viespi, spam și alte solicitări web autentice, crawlerele web folosesc o strategie de crawling pentru a determina când un site ar trebui să fie considerat indexabil. Unele site-uri sunt atent analizate, în timp ce altele
oferă doar mijloace parțiale de potrivire a cuvintelor recunoscute și a altor simboluri de pe paginile web cu nume de domenii și câmpuri HTML Comenzile sunt introduse într-o bază de date publică disponibilă pentru interogări online, cuvinte sau expresii cât mai repede posibil.[32] Unele indexări și tehnicile de stocare în cache sunt secrete comerciale, dar crearea unui site web este un proces simplu care necesită să vizitați în mod regulat
. , motorul de căutare poate acționa ca o licitație web, caz în care poate diferi de lista de etichete g32 cuvânt cheie es] O pagină stocată în cache păstrează aspectul unei versiuni în care cuvintele au fost introduse anterior, astfel încât o versiune în cache poate fi utilă pentru o pagină când pagina reală nu mai există, dar această problemă este considerată și o legătură software.
Arhitectura avansată a unui browser standard
Când un utilizator efectuează o căutare într-un motor de căutare, căutarea constă de obicei din mai multe cuvinte cheie.[34] Directorul conține deja numele site-urilor care conțin cuvintele dvs. cheie și va fi eliminat imediat din director. Sarcina reală de procesare este generarea de pagini web care afișează o listă de rezultate de căutare: fiecare pagină din lista completă trebuie să fie ponderată cu informații despre director.[32] Apoi, pentru elementul superior al rezultatelor căutării, trebuie să găsiți, să afișați și să adnotați fragmente de text care arată contextul relevant al cuvântului cheie. Aceasta este doar o parte a procesării tuturor paginilor cu rezultatele căutării, iar paginile ulterioare (colțul din dreapta sus) necesită mai mult din această post-procesare.
Pe lângă termenii simpli de căutare, motoarele de căutare oferă propriile interfețe de ecran, interfețe grafice cu utilizatorul sau operatori de căutare și parametri pentru îmbunătățirea rezultatelor căutării. Aceasta oferă controalele necesare pentru ca utilizatorul să interacționeze cu comentariile generate de utilizator prin filtrare și ponderare, îmbunătățind astfel rezultatele căutării în primele pagini ale rezultatelor căutării. De exemplu, din 2007, motorul de căutare Google.com a activat filtrarea după dată făcând clic pe „Afișează instrumentele de căutare” în coloana din stânga a primei pagini cu rezultatele căutării și selectând ora dorită.[35] Puteți, de asemenea, să cântăriți după dată, deoarece fiecare parte are momente alternative. Majoritatea motoarelor de căutare acceptă utilizarea operatorilor logici AND, SAU și NOT pentru a ajuta studenții să-și restrângă termenul de căutare. Operatorii logici sunt destinati căutărilor literare și permit utilizatorului să rafinați și să extindă criteriile de căutare. Motorul de căutare caută cuvinte sau expresii exact așa cum sunt scrise. Unele motoare de căutare oferă o caracteristică avansată numită căutare de proximitate, care permite utilizatorilor să specifice distanța dintre cuvintele cheie.[32] Există și căutări subiective, care folosesc analiza statistică pentru a găsi pagini care conțin cuvintele sau expresiile pe care le cauți.
Utilitatea unui motor de căutare depinde de relevanța rezultatelor pe care le returnează. Deși pot exista milioane de pagini web care conțin un anumit cuvânt sau expresie, unele site-uri pot fi mai relevante, populare sau de încredere decât altele. Majoritatea motoarelor de căutare folosesc metode de numărare a rezultatelor pentru a oferi mai întâi cele mai bune rezultate. Modul în care un motor de căutare determină care pagini aduc cele mai bune rezultate și ordinea în care rezultatele ar trebui să fie afișate variază foarte mult de la un motor de căutare la altul.[32] Metodele se schimbă, de asemenea, în timp, pe măsură ce utilizarea internetului se schimbă și se dezvoltă noi tehnologii. Au fost dezvoltate două tipuri principale de imprimante: primul este un sistem de cuvinte cheie ierarhice predefinite, în mare parte programate de oameni. Al doilea este un sistem care creează un index inversat prin analiza textelor găsite. În schimb, această primă formă se bazează pe computerul însuși pentru a face cea mai mare parte a muncii.
Majoritatea motoarelor de căutare sunt întreprinderi comerciale finanțate din veniturile din publicitate. Unele dintre ele permit agenților de publicitate să plătească pentru ca anunțurile lor să fie clasate mai sus în rezultatele căutării. Motoarele de căutare care nu câștigă bani din rezultatele căutării lor câștigă bani afișând anunțuri legate de căutare deasupra rezultatelor normale de căutare. Motoarele de căutare câștigă bani de fiecare dată când cineva face clic pe unul dintre aceste anunțuri.[36]
Aprovizionare
Acesta este un proces care maximizează eforturile întreprinderilor locale. Ne concentrăm pe modificări pentru a menține dependențele consistente. Acest lucru este important deoarece mulți oameni decid unde să meargă și ce să cumpere pe baza cercetărilor lor.[37]
Piața
Din ianuarie 2022, Google este de departe cel mai folosit motor de căutare din lume, cu o cotă de piață de 92,01%. Bing, Yahoo!, Baidu, Yandex și DuckDuckGo sunt celelalte motoare de căutare cele mai utilizate din lume. [38]
Rusia și Asia de Est În
Rusia, cota de piață a Yandex este de 61,9% față de 28,3% pentru Google.[39] În China, Baidu este cel mai popular motor de căutare.[40] Kaveri, portalul național de căutare din Coreea de Sud, este utilizat de 70% dintre site-urile web din țară.[41] Yahoo! Japonia și Yahoo! Taiwan este cel mai popular mod de a naviga pe internet în Japonia sau Taiwan.[42] China este una dintre puținele țări în care Google nu se află în primele 3 motoare de căutare după cota de piață. Google a fost cândva motorul de căutare numărul unu în China, dar a renunțat după ce a ajuns la un acord cu guvernul cu privire la cenzură și pirateria cunoașterii.[43]
Europa
Piața din majoritatea țărilor UE este dominată de Google, cu excepția Republicii Cehe, unde Seznam este un concurent puternic.[44]
Motorul de căutare Qwant are sediul în Paris, Franța, unde se află majoritatea celor 50 de milioane de utilizatori înregistrați lunar.
Prejudecăți
Deși motoarele de căutare sunt programate pentru a clasifica site-urile web pe baza unei combinații de popularitate și relevanță, dovezile empirice indică diferite părtiniri politice, economice și sociale în informațiile pe care le furnizează.[45][46] ] și ipoteze de bază despre tehnologie. [47] Aceste părtiniri pot apărea direct din procesele economice și comerciale (de exemplu, companiile care fac publicitate pe un motor de căutare pot câștiga popularitate și în rezultatele căutării gratuite) și din procese politice (de exemplu, suprimarea rezultatelor căutării pentru a se conforma cu legile locale) [48] De exemplu, „Nu Google” a publicat anumite site-uri web naziste în Franța și Germania, unde negarea Holocaustului este ilegală.
Prejudecățile pot proveni și din procese sociale, deoarece algoritmii motoarelor de căutare sunt adesea concepuți pentru a filtra opiniile normative în favoarea rezultatelor „populare”.[49] Algoritmii majori de clasare a motoarelor de căutare tind să acopere mai mult site-urile din SUA decât site-urile din afara SUA.[46]
Atentatul Google este un exemplu de încercare de a manipula rezultatele căutării din motive politice, sociale sau comerciale.
Mai mulți cercetători au analizat schimbările culturale induse de motoarele de căutare[50] și prezentarea unor probleme controversate în rezultatele lor, cum ar fi terorismul în Irlanda[51], negarea schimbărilor climatice[52] și teoriile conspirației [53] .
Au fost ridicate îngrijorări cu privire la faptul că motoarele de căutare precum Google și Bing oferă rezultate personalizate bazate pe istoricul activității unui utilizator, ceea ce duce la ceea ce Eli Pariser a numit în 2011 camere de ecou sau boluri de filtrare.[54] Acest lucru se datorează faptului că motoarele de căutare și rețelele sociale folosesc algoritmi pentru a afișa selectiv informațiile pe care un utilizator dorește să vadă pe baza datelor utilizatorului (cum ar fi locația, comportamentul clicurilor și istoricul). Prin urmare, site-urile web afișează adesea doar informații care se potrivesc cu vizualizarea anterioară a utilizatorului. Aceasta înseamnă că, potrivit lui Pariser, utilizatorii sunt mai puțin expuși la puncte de vedere conflictuale și sunt izolați cognitiv în propria bulă de informații. De când a fost descoperită această problemă, au apărut motoare de căutare concurente care încearcă să rezolve această problemă prin neurmărirea sau „uciderea” utilizatorilor, cum ar fi: B. DuckDuckGo. Cu toate acestea, mulți cercetători au pus la îndoială opinia lui Pariser și au ajuns la concluzia că există puține dovezi pentru existența bulelor de filtru. [55][56][57] În schimb, multe studii care au încercat să demonstreze existența bulelor de filtrare au găsit o adaptare redusă la școală, [57] deoarece majoritatea oamenilor navighează pe internet și Google News tinde să prezinte știri majore [57] ] ] ] 58 ] [56]
. Creșterea globală a internetului și a media electronică în lumea arabă și musulmană în ultimul deceniu i-a încurajat pe adepții islamului din Orientul Mijlociu și din Peninsula Asiatică să experimenteze cu propriile lor motoare de căutare. , portalurile noastre de căutare pe site care permit utilizatorilor să-și continue cercetările în deplină siguranță. Mai degrabă decât filtrele obișnuite de căutare sigure, aceste portaluri islamice online clasifică site-urile web ca „halal” sau „haram” pe baza interpretării lor a cuvântului „islamic”. Halal a fost lansat în septembrie 2011. Google Halal a fost lansat în iulie 2013. Au filtre haram pentru colecțiile Google și Bing (și altele).[59]
Lipsa investițiilor și dezvoltarea tehnologică lentă în lumea musulmană au împiedicat progresul și au îngreunat ca un motor de căutare islandez care vizează adepții islamului să aibă succes în rândul consumatorilor de masă, dar au primit proiecte precum Islam, un site de stil de viață islamic, în valoare de milioane de dolari. de către investitori. precum Rite Internet Ventures și a mers prost. Alte motoare de căutare religioase includ Jewel, o versiune evreiască a Google [60] și Seek Find.org, care este creștină. Search Finn filtrează site-urile web care atacă sau disprețuiesc convingerile tale.[61]
Trimitere
Procesul prin care un webmaster trimite un site direct către un motor de căutare. Deși uneori este văzută ca o modalitate de a promova un site web, trimiterea către motoarele de căutare este adesea inutilă, deoarece editorii majori folosesc crawlerele web care ajung să găsească cele mai multe site-uri online fără niciun ajutor. Cu o hartă a site-ului, puteți trimite site-uri individuale sau întregul dvs. site, dar de obicei este suficient să trimiteți pagina de pornire a site-ului dvs. deoarece motoarele de căutare pot indexa un site bine conceput. Există alte două motive pentru a trimite o pagină sau un site la un motor de căutare: pentru a adăuga o pagină nouă fără a aștepta ca motorul de căutare să o descopere și pentru a actualiza bara laterală după o analiză amănunțită.
Unele programe de trimitere la motoarele de căutare nu numai că trimit pagini către diferite motoare de căutare, dar adaugă și link-uri către pagini de pe propriile site-uri. Acest lucru poate fi considerat util în îmbunătățirea clasamentului unui site web, deoarece linkurile externe sunt unul dintre cei mai importanți factori în determinarea clasamentului unui site web. Cu toate acestea, John Mueller de la Google a spus că „poate duce la o mulțime de link-uri naturale care direcționează către site-ul tău”. , ceea ce afectează negativ clasarea site-ului.[62]
Comparație cu marcajele sociale
Vezi și: Optimizare
În comparație cu motoarele de căutare, marcajele are mai multe avantaje față de programele tradiționale automate de căutare și clasare, cum ar fi roboții de căutare. Toată calificarea biologică a resurselor de Internet (de exemplu, paginile web) este făcută de oameni care înțeleg conținutul resursei, spre deosebire de software-ul care încearcă să calculeze relevanța și calitatea resursei. În plus, utilizatorii pot găsi și marca site-uri care nu au fost încă observate sau indexate de crawlerele.[63] În plus, un sistem de marcare socială poate clasifica canalele în funcție de numărul de preferințe ale utilizatorilor, ceea ce poate fi o măsură utilă pentru utilizatori, deoarece sistemele clasifică canalele în funcție de numărul de link-uri externe care indică către acestea. Cu toate acestea, ambele sunt vulnerabile la înșelăciunea clasamentului (vezi Jocul sistemului) și necesită contramăsuri tehnice pentru a o combate.
Tehnologie
Primul motor de căutare pe Internet a fost Archie, dezvoltat în 1990[64] de Alan Eage, un student absolvent la Universitatea McGill din Montreal. Autorul a vrut inițial să numească programul „fișier”, dar acesta a trebuit să fie scurtat conform standardului internațional Unix de a da programelor și fișierelor nume criptografice scurte precum grep, cat, troff, sed, awk, perl etc. 🇧🇷 🇧🇷 🇧🇷 🇧🇷 🇧🇷
Protocolul principal pentru stocarea și preluarea fișierelor a fost File Transfer Protocol (FTP). A fost (și încă este) sistemul care definește în general modul în care computerele partajează fișiere pe Internet. Cum funcționează: un administrator decide să acorde acces la fișierele de pe computer. Instalați un program numit server FTP pe computer. Când un utilizator de internet dorește să descarce un fișier de pe acest computer, se conectează la un alt client FTP. Orice program client FTP se poate conecta la orice program server FTP atâta timp cât programul client și serverul îndeplinesc cerințele protocolului de comunicare HTTP.
Inițial, oricine dorea să partajeze un fișier trebuia să configureze un server FTP pentru a face imaginea disponibilă altora. Mai târziu, site-urile FTP „anonime” au devenit un depozit de date pe care oricine le poate descărca și accesa.
Chiar și pe paginile de arhivă, multe fișiere importante erau încă împrăștiate pe servere FTP mici. Din păcate, aceste fișiere au putut fi găsite doar prin gura în gură pe Internet: cineva a trimis într-o listă de corespondență sau un forum de mesaje care anunță disponibilitatea imaginii.
Archie a schimbat totul. Combinați un script de colectare de date conectat care caută într-o listă de fișiere de date anonime cu o expresie obișnuită pentru a prelua numele fișierelor care se potrivesc cu interogarea utilizatorului. (4) Cu alte cuvinte, căsuța poștală a lui Archie a căutat pe internet site-uri FTP și a salvat toate fișierele pe care le-a găsit. Expresia sa regulată permite utilizatorilor să acceseze baza de date.[65]