meniu

logo <!-- Image Map Generated  --> <img src="redu logo.jpg" usemap="#image-map">  <map name="image-map">     <area target="" alt="" title="" href="" coords="" shape="rect"> </map>
Make money online watching videos
28 octombrie 2022

Cum funcționează Google Crawler

 Cum funcționează Google Crawler

 Google accesează cu crawlere web-ul căutând pagini noi. Google semnalează apoi aceste pagini pentru a înțelege ce sunt și le clasifică pe baza informațiilor obținute. Crawlingul și indexarea sunt două procese diferite, dar ambele sunt efectuate de un păianjen.

În ghid, adunăm tot ce trebuie să știe un profesionist SEO despre păianjeni. Citiți mai departe pentru a afla ce este  Spider Google, cum funcționează și cum îl puteți face să interacționeze mai eficient cu site-ul dvs.

Ce este   Google Spider?

Google Spider (de asemenea, Searched, Spider) este un software pe care Google și alte motoare de căutare îl folosesc pentru a accesa cu crawlere web. Pur și simplu, „navigați” pe web de la o pagină la alta, căutând conținut nou sau actualizat. pe care Google nu le are încă în bazele de date. 

Fiecare motor de căutare are proprii roboți. În ceea ce privește Google, există peste 15 specii diferite de păianjeni, iar elementul de bază al Google se numește Googlebot. Googlebot accesează cu crawlere și indexează, așa că haideți să vedem cum funcționează.

Cum funcționează SpiderGoogle?

Google (sau orice alt motor de căutare) nu are un registru central de adrese URL care este actualizat de fiecare dată când este creată o nouă pagină. Aceasta înseamnă că Google nu este „notificat” automat cu privire la paginile noi, ci trebuie să le găsească online. Googlebot accesează cu crawlere în mod constant Internetul căutând pagini noi și le adaugă la baza de date Google a paginilor existente.

Când Googlebot vizitează o pagină nouă, o afișează în browser și o încarcă cu HTML, cod terță parte, JavaScript și CSS. Aceste informații sunt stocate în baza de date a motorului de căutare și sunt folosite pentru indexarea și clasarea paginii. Când o pagină este indexată, aceasta este adăugată la indexul Google, o altă bază de date Google foarte mare.

Crawler, redare, indexare

Cum vede crawler-ul Google paginile?

Crawler-ul Google afișează pagina în cea mai recentă versiune a browserului Chromium. Într-un scenariu perfect, crawler-ul Google „vede” pagina așa cum ați proiectat-o ​​și creat-o. Într-un scenariu realist, lucrurile se pot complica.

computer și smartphone.

Această secțiune este necesară pentru a indexa pagina pentru SERP-urile desktop și mobile.

În urmă cu câțiva ani, Google a folosit un crawler pentru a vizita și a afișa majoritatea paginilor. Dar asta s-a schimbat odată cu introducerea conceptului „în primul rând mobil”. Google a crezut că lumea este suficient de mobilă și a început să folosească smartphone-ul Googlebot pentru a accesa cu crawlere, a indexa și a clasifica versiunile mobile ale site-urilor web pentru SERP-urile mobile și desktop.

Cu toate acestea, adoptarea indexării mobile sa dovedit inițial mai dificilă decât se aștepta. Internetul este imens și majoritatea site-urilor web par slab optimizate pentru dispozitive mobile. Acesta este motivul pentru care Google a introdus un concept de căutare de conținut și de indexare a site-urilor vechi și noi, care este complet optimizat pentru dispozitive mobile. Dacă site-ul nu este optimizat pentru mobil, Googlebot Desktop îl va accesa cu crawlere și îl va afișa imediat.

Chiar dacă site-ul dvs. a trecut la indexarea pe dispozitivul mobil, Googlebot Desktop încă accesează cu crawlere unele dintre paginile dvs., deoarece Google dorește să vadă cum funcționează site-ul dvs. pe desktop. Google nu spune direct că vizează versiunea sa desktop dacă este semnificativ diferită de versiunea mobilă. Cu toate acestea, este logic să presupunem că scopul principal al Google este de a oferi utilizatorilor cele mai utile informații. Și Google nu dorește să piardă acele date urmând orbește conceptul de primul mobil.

Observare! În orice caz, site-ul dvs. web va fi vizitat de Googlebot Mobile și Google Bot Desktop. Din acest motiv, este important să aveți grijă de ambele versiuni ale site-ului dvs. și să luați în considerare utilizarea unui design responsive dacă nu ați făcut-o deja.

De unde știți dacă Google caută conținut și indexează site-ul dvs. folosind un concept bazat pe mobil? Veți primi un mesaj special în Google Search Console.

Google Search Console Mobile-First Scan

Sursa: Land Search Engine

Redare HTML și JavaScript

Googlebot poate avea unele probleme cu redarea și modificarea codului la scară largă. Dacă codul paginii dvs. este confuz, este posibil ca crawlerul să nu îl poată afișa corect și să considere pagina dvs. ca goală.

Când reproduceți JavaScript, rețineți că JavaScript este un limbaj care evoluează rapid și Googlebot uneori nu acceptă cele mai recente versiuni. Asigurați-vă că JS-ul dvs. este compatibil cu Google Bot; în caz contrar, este posibil ca pagina dvs. să nu fie afișată corect.

Fiți conștienți de timpul de încărcare JavaScript. Dacă încărcarea unui script durează mai mult de 5 secunde, Googlebot nu va afișa sau indexa conținutul generat de acel script.

Observare! Dacă site-ul dvs. este plin de elemente JavaScript grele și nu puteți trăi fără ele, Google recomandă redarea pe server. Acest lucru face ca site-ul dvs. să se încarce mai rapid și va evita erorile JavaScript.

Pentru a vedea ce funcții cauzează probleme pentru pagina dvs. (și pentru a afla dacă aveți probleme), conectați-vă la contul Google Search Console, accesați Inspecția URL, introduceți adresa URL pe care doriți să o verificați, faceți clic pe Test „Adresa URL live, și faceți clic pe Afișați pagina antet.

pagina testată din Google Search Console.

Apoi, navigați la secțiunea Mai multe informații și faceți clic pe folderele Mesaje din pagina Resurse JavaScript și Consolă pentru a vedea o listă de resurse pe care Googlebot nu le poate accesa pentru a le returna.

Resursele nu au putut fi generate

. Acum puteți afișa webmasterilor o listă de probleme și le puteți cere să investigheze și să remedieze erorile, astfel încât Googlebot să poată reda conținutul corect.

Ce influențează comportamentul păianjenilor?

Comportamentul Google Boots nu este haotic: este guvernat de algoritmi sofisticați care îl ajută pe Spider să navigheze pe web și să stabilească reguli pentru modul în care procesează informațiile.

Cu toate acestea, comportamentul algoritmilor Google nu este ceva de aruncat și de sperat în bine. Să aruncăm o privire la ceea ce afectează comportamentul crawlerului și cum puteți optimiza aprecierile paginii dvs.

Link-uri interne și backlink-uri

Dacă Google vă cunoaște deja site-ul, Googlebot verifică în mod regulat dacă paginile dvs. principale sunt actualizate. Din acest motiv, este important să legați paginile noi la paginile reale de pe site-ul dvs. Cele mai bune din pagina de start.

Vă puteți condimenta pagina de pornire cu știri de ultimă oră sau blocante de postări de blog, chiar dacă aveți pagini separate de știri și blog. Acest lucru ar permite Googlebot să găsească noile pagini mult mai rapid. Această recomandare poate părea destul de evidentă, dar mulți proprietari de site-uri continuă să o ignore, ceea ce duce la indexări și clasamente slabe.

Când vine vorba de urmărire, backlink-urile funcționează în același mod: Google vă va găsi pagina mai rapid dacă trimite către un site extern de încredere și popular. Deci, atunci când adăugați o pagină nouă, nu uitați de marketingul extern. Puteți încerca să postați invitați, să difuzați o campanie publicitară sau să afișați Googlebot noua dvs. adresă URL.

Notă: Linkurile trebuie să fie de follow-up pentru ca Googlebot să le urmărească. Deși Google a spus recent că linkurile neurmate pot fi folosite și ca sugestii de accesare cu crawlere și de indexare, totuși recomandăm să utilizați dofollow. Doar pentru a vă asigura că crawlerele Google văd pagina.

Sunetele clicurilor indică distanța dintre pagină și pagina de pornire și numărul de pași pe care îi face Googlebot pentru a ajunge la pagină. În mod ideal, toate paginile site-ului ar trebui să fie accesibile în 3 clicuri. Zgomotul puternic de clicuri încetinește scanarea și aduce puține beneficii experienței utilizatorului.

Cu un auditor de site, vă puteți verifica site-ul pentru probleme legate de zgomotul clicurilor. Lansați instrumentul și accesați Aspect site -> Pagini și acordați atenție coloanei „Adâncimea clicului”.

Metricul auditorului site-ului 

Dacă descoperiți că unele pagini importante sunt prea departe de pagina principală, verificați structura site-ului dvs. O structură bună ar trebui să fie simplă și scalabilă, astfel încât să puteți adăuga câte pagini noi doriți, fără a afecta negativ adâncimea clicurilor și a împiedica crawler-ul Google să ajungă la pagini cu succes. 

Structură simplă și extensibilă

O hartă

Este un document care conține o listă completă a paginilor care trebuie să apară în Google. Puteți trimite sitemap-ul dvs. la Google prin Google Search Console (Index -> Sitemaps), astfel încât Googlebot să știe ce pagini ați vizitat și accesat cu crawlere. Harta site-ului îi spune Google, de asemenea, dacă există actualizări ale paginilor noastre.

Observare! Un sitemap nu garantează că Googlebot îl va folosi pentru a indexa site-ul dvs. Spiderul vă poate ignora harta site-ului și poate continua să navigheze pe site după bunul plac. În ciuda acestui fapt, nimeni nu a fost penalizat pentru harta site-ului și, în majoritatea cazurilor, s-a dovedit a fi utilă. Unele CMS creează, actualizează și trimit automat o hartă de site la Google pentru a accelera și a facilita procesul SEO. Luați în considerare trimiterea unui sitemap dacă site-ul dvs. este nou sau mare (peste 500 de adrese URL).

WebSite Auditor vă permite să creați o hartă a site-ului. Accesați Setări -> Setări XML Sitemap -> Creare Sitemap și configurați opțiunile dorite. Dați un nume hărții site-ului dvs. (nume fișier pentru harta site-ului) și încărcați-l pe computer pentru a-l trimite la Google sau publicați-l pe site-ul dvs. web (publicați harta site-ului).

Reguli de indexare

Când caută și indexează paginile dvs., Google respectă anumite reguli, cum ar fi robots.txt, etichete fără index, etichete meta roboți și etichete x-robots.

Robots.txt este un fișier director rădăcină care restricționează anumite pagini sau părți de conținut de la Google. Când Googlebot îți descoperă pagina, consultă fișierul robots.txt. Când robots.txt împiedică accesarea cu crawlere a unei pagini detectate, Googlebot încetează să colecteze și să încarce conținutul și scripturile paginii. Această pagină nu va apărea în căutări.

Puteți crea un fișier robots.txt în WebSite Auditor (Setări -> Setări Robots.txt).

Configurația robot txt cu eticheta site crawler noindex, metaeticheta robot și eticheta x robots sunt etichete folosite pentru a împiedica păianjenii să acceseze cu crawlere și să indexeze pagina. Indicatorul non-index împiedică pagina să fie indexată de tot felul de roboți. Eticheta meta robot este utilizată pentru a specifica modul de accesare cu crawlere și de indexare a unei anumite pagini. Aceasta înseamnă că puteți bloca anumite tipuri de păianjeni să vă viziteze site-ul și să îi lăsați deschisi altora. Eticheta X-Robots poate fi folosită ca element de răspuns la antetul HTTP care poate împiedica indexarea paginii sau poate controla comportamentul de accesare cu crawlere al paginii. În această zi, puteți viza anumite tipuri de mașini (dacă este specificat). Dacă nu este specificat tipul de robot, instrucțiunile se aplică tuturor tipurilor de roboti Google.

Observare! Un fișier robots.txt nu garantează că o pagină va fi exclusă de la indexare. Googlebot tratează acest document ca pe o recomandare și nu ca pe o solicitare. Aceasta înseamnă că Google poate ignora fișierul robots.txt și poate indexa pagina pentru căutare. Dacă doriți să vă asigurați că pagina nu este indexată, utilizați eticheta noindex.

Sunt toate paginile utilizabile?

Este posibil ca unele pagini să nu fie disponibile pentru căutare și indexare Google. Să aruncăm o privire la aceste tipuri de pagini:

Pagini protejate prin parolă. Googlebot simulează comportamentul unui utilizator anonim care nu știe că vizitează pagini protejate. Astfel, dacă pagina este protejată prin parolă, aceasta nu va fi accesată cu crawlere deoarece Googlebot nu o poate accesa.

Pagini excluse din regulile de indexare. Acestea sunt paginile ascunse ale Google cu directive robots.txt, pagini neindexate, meta-etichete robots și etichete x-robots.

Scoateți orfanii. Paginile orfane sunt pagini care nu sunt legate de nicio altă pagină de pe site. Googlebot este un păianjen robot, ceea ce înseamnă că descoperă pagini noi urmând orice link pe care îl găsește. Dacă niciun link nu indică către pagină, pagina nu va fi verificată și nu va apărea în căutări.

Accesarea cu crawlere și indexarea anumitor pagini pot fi restricționate în mod intenționat. Acestea sunt de obicei pagini pe care nu doriți să apară în căutări: pagini cu informații personale, politici, condiții de utilizare, pagini de încercare, pagini de arhivă, pagini interne cu rezultate ale căutării etc.

Dacă doriți ca paginile dvs. să fie accesibile crawlerelor Google și să vă aducă trafic, asigurați-vă că nu protejați cu parolă paginile și linkurile publice (interne și externe) și revizuiți cu atenție politicile de confidențialitate.

Pentru a verifica capacitatea de căutare a conținutului paginii site-ului dvs. în Google Search Console, accesați Index -> Raport de acoperire. Căutați probleme marcate ca bug-uri (neindexate) și valide cu avertisment (indexate chiar dacă există probleme).

Raportul de acoperire Google Search Console 

De asemenea, putem efectua un audit de indexare mai aprofundat folosind programul WebSite Auditor. Instrumentul nu numai că arată probleme cu paginile disponibile pentru indexare, dar arată și pagini pe care Google nu le-a văzut încă. Lansați software-ul și navigați la Structura site -> Verificare site.

Revizuirea site-ului cu examinatorul site-ului! 

Dacă nu doriți ca Googlebot să găsească sau să actualizeze pagini (unele pagini vechi, pagini de care nu mai aveți nevoie), care pot fi eliminate din harta site-ului dvs., dacă aveți una, setați starea la 404 Not Found sau marcați-le cu noindex etichetă.

Când va apărea site-ul meu în rezultatele căutării?

Desigur, paginile dvs. nu vor apărea în căutări imediat după publicarea site-ului. Când site-ul dvs. este nou, Googlebot-ului durează ceva timp pentru a-l găsi online. Vă rugăm să rețineți că acest „ceva” poate dura până la 6 luni în unele cazuri. 

Dacă Google vă cunoaște deja site-ul și ați făcut actualizări sau ați adăugat pagini noi, cât de repede apar modificările pe site în timp real depinde de bugetul de accesare cu crawlere.

Bugetul școlii reprezintă cantitatea de resurse pe care Google o dedică accesării cu crawlere a conținutului site-ului dvs. Cu cât Googlebot folosește mai multe resurse pentru a găsi conținutul site-ului dvs., cu atât acesta apare mai lent în căutări.

Modul în care este determinat bugetul de accesare cu crawlere depinde de următorii factori: 

Popularitatea site-ului. Cu cât un site este mai popular, cu atât Google este dispus să cheltuiască mai multe puncte de accesare cu crawlere.

Frecvență de actualizare. Cu cât actualizați mai mult paginile, cu atât mai multe funcții de urmărire va avea site-ul dvs.

numărul paginii.

 Cu cât aveți mai multe pagini, cu atât bugetul de accesare cu crawlere este mai mare.

Capacitatea serverului de a gestiona scanarea. Serverele dvs. de găzduire trebuie să poată răspunde solicitărilor spider în timp util.

Rețineți că bugetul de accesare cu crawlere nu este cheltuit în mod egal pe fiecare pagină, deoarece unele pagini consumă mai multe resurse (datorită JavaScript și CSS avansate sau HTML confuz). Este posibil ca bugetul dvs. alocat pentru accesare cu crawlere să nu fie suficient pentru a vă accesa cu crawlere toate paginile la viteza estimată.

Alături de problemele majore de cod, conținutul duplicat și problemele de URL-uri prost structurate sunt unele dintre cele mai frecvente cauze ale căutării slabe de conținut și bugetelor nerezonabile de căutare a conținutului.

Problema duplicat.

 Conținutul duplicat este format din mai multe pagini cu conținut substanțial similar. Acest lucru se poate întâmpla din diverse motive, precum:

accesarea site-ului în diferite moduri: cu sau fără www, prin http sau https;

Adrese URL dinamice: atunci când mai multe adrese URL diferite indică aceeași pagină;

Versiuni ale paginilor de testare A/B.

Dacă problemele de conținut duplicat nu sunt rezolvate, Google Bot va accesa cu crawlere aceeași pagină de mai multe ori, presupunând că sunt pagini diferite. Acest lucru irosește resurse de urmărire și poate împiedica Googlebot să găsească alte pagini importante pe site-ul dvs. În plus, conținutul duplicat scade clasarea paginii dvs. în interogările de căutare, deoarece Google poate decide că calitatea generală a site-ului dvs. este scăzută. 

Adevărul este că, în cele mai multe cazuri, nu poți scăpa de majoritatea lucrurilor care provoacă conținut duplicat. Cu toate acestea, puteți evita problemele de conținut duplicat specificând adrese URL canonice. Eticheta canonică indică ce pagină ar trebui considerată pagina de pornire, astfel încât Google nu indică alte adrese URL care indică aceeași pagină și conținutul dvs. nu va fi duplicat. De asemenea, puteți utiliza fișierul robots.txt pentru a împiedica roboții de căutare să acceseze adrese URL dinamice.

conforme cu structura.

 sunt evaluate folosind algoritmi umani și automati. Googlebot nu face excepție. Googlebot poate deveni confuz încercând să înțeleagă adrese URL lungi cu prea mulți parametri. Și cu cât Googlebot este mai „dezordonat”, cu atât mai multe resurse de urmărire sunt cheltuite pe o pagină.

Pentru a evita irosirea bugetului de urmărire, asigurați-vă că adresele URL sunt ușor de utilizat. Adresele URL prietenoase (și prietenoase cu Googlebot) sunt clare, urmează o structură logică, sunt punctate corespunzător și nu conțin parametri complexi. Cu alte cuvinte, adresele URL ar trebui să arate astfel:

http://example.com/vegetables/cucumbers/picles

Notă! Din fericire, urmărirea optimizării bugetului nu este atât de complicată pe cât pare. Dar adevărul este că trebuie să vă faceți griji doar dacă aveți un site web mare (peste 1 milion de pagini) sau mediu (peste 10.000 de pagini) al cărui conținut se modifică frecvent (zilnic sau săptămânal). Alteori, trebuie doar să optimizați corect site-ul pentru căutare și să remediați problemele de indexare în timp util.

Concluzie

Principalul crawler al Google, Googlebot, folosește algoritmi sofisticați, dar poate „naviga” în continuare comportamentul tău în beneficiul site-ului tău. De asemenea, majoritatea pașilor de optimizare din procesul de accesare cu crawlere repetă pașii SEO comuni pe care îi cunoaștem cu toții.

Free Start Counter
This is the title of the web page
Right Click is disabled for the complete web page.
Flag Counter