Die werk van 'n SEO-optimiseerder is baie grootskaals. Beginners word aangeraai om die optimaliseringsalgoritme neer te skryf om nie enige stappe te mis nie. Andersins sal die promosie kwalik suksesvol genoem word, aangesien die webwerf voortdurend foute en foute sal ervaar wat vir 'n lang tyd reggestel sal moet word.
Een van die optimaliseringstappe is om met die robots.txt-lêer te werk. Elke hulpbron moet hierdie dokument hê, want daarsonder sal dit moeiliker wees om optimalisering te hanteer. Dit voer baie funksies uit wat jy sal moet verstaan.
Robot Assistant
Die robots.txt-lêer is 'n gewone teksdokument wat in die standaard Notepad van die stelsel bekyk kan word. Wanneer jy dit skep, moet jy die enkodering op UTF-8 stel sodat dit korrek gelees kan word. Die lêer werk met http-, https- en FTP-protokolle.
Hierdie dokument is 'n assistent om robotte te soek. As jy nie weet nie, gebruik elke stelsel "spinnekoppe" wat vinnig die Wêreldwye Web deurkruip om relevante werwe vir navrae terug te stuur.gebruikers. Hierdie robotte moet toegang tot die hulpbrondata hê, robots.txt werk hiervoor.
Om vir die spinnekoppe hul pad te vind, moet jy die robots.txt-dokument na die wortelgids stuur. Om te kyk of die webwerf hierdie lêer het, voer "https://site.com.ua/robots.txt" in die adresbalk van die blaaier in. In plaas van "site.com.ua" moet jy die hulpbron invoer wat jy nodig het.
Dokumentfunksies
Die robots.txt-lêer voorsien deurkruipers van verskeie soorte inligting. Dit kan gedeeltelike toegang gee sodat die "spinnekop" spesifieke elemente van die hulpbron skandeer. Volle toegang laat jou toe om alle beskikbare bladsye na te gaan. 'n Volledige verbod verhoed dat robotte selfs begin kyk, en hulle verlaat die werf.
Nadat hulle die hulpbron besoek het, ontvang "spinnekoppe" 'n gepaste reaksie op die versoek. Daar kan verskeie van hulle wees, dit hang alles af van die inligting in robots.txt. Byvoorbeeld, as die skandering suksesvol was, sal die robot die kode 2xx ontvang.
Miskien is die webwerf van een bladsy na 'n ander herlei. In hierdie geval ontvang die robot die kode 3xx. As hierdie kode verskeie kere voorkom, sal die spinnekop dit volg totdat dit nog 'n antwoord ontvang. Alhoewel hy as 'n reël slegs 5 pogings gebruik. Andersins verskyn die gewilde 404-fout.
As die antwoord 4xx is, word die robot toegelaat om die hele inhoud van die werf te deurkruip. Maar in die geval van die 5xx-kode kan die kontrole heeltemal stop, aangesien dit dikwels op tydelike bedienerfoute dui.
Waarvoorbenodig jy robots.txt?
Soos jy dalk geraai het, is hierdie lêer die robotte se gids tot die wortel van die webwerf. Nou word dit gebruik om toegang tot onvanpaste inhoud gedeeltelik te beperk:
- bladsye met persoonlike inligting van gebruikers;
- spieëlwerwe;
- soekresultate;
- data-indieningvorms, ens.
As daar geen robots.txt-lêer in die werfwortel is nie, sal die robot absoluut alle inhoud deurkruip. Gevolglik kan ongewenste data in die soekresultate verskyn, wat beteken dat beide jy en die webwerf sal ly. As daar spesiale instruksies in die robots.txt-dokument is, sal die "spinnekop" dit volg en die inligting gee wat deur die eienaar van die hulpbron verlang word.
Werk met 'n lêer
Om robots.txt te gebruik om die werf van indeksering te blokkeer, moet jy uitvind hoe om hierdie lêer te skep. Om dit te doen, volg die instruksies:
- Skep 'n dokument in Notepad of Notepad++.
- Stel die lêeruitbreiding ".txt".
- Voer die vereiste data en opdragte in.
- Stoor die dokument en laai dit op na die werf se wortel.
Soos jy kan sien, is dit in een van die stadiums nodig om opdragte vir robotte in te stel. Hulle is van twee tipes: toelaat (toelaat) en verbied (Disallow). Sommige optimaliseerders kan ook die kruipspoed, gasheer en skakel na die hulpbron se bladsykaart spesifiseer.
Om met robots.txt te begin werk en die werf heeltemal te blokkeer om te indekseer, moet jy ook die simbole wat gebruik word verstaan. Byvoorbeeld, in 'n dokumentgebruik "/", wat aandui dat die hele webwerf gekies is. As "" gebruik word, word 'n reeks karakters vereis. Op hierdie manier sal dit moontlik wees om 'n spesifieke vouer te spesifiseer wat óf geskandeer kan word óf nie.
Kenmerk van bots
"Spinnekoppe" vir soekenjins is anders, so as jy vir verskeie soekenjins tegelyk werk, dan sal jy hierdie oomblik in ag moet neem. Hulle name verskil, wat beteken dat as jy 'n spesifieke robot wil kontak, jy die naam daarvan sal moet spesifiseer: "Gebruikersagent: Yandex" (sonder aanhalingstekens).
As jy aanwysings vir alle soekenjins wil stel, moet jy die opdrag gebruik: "Gebruikersagent: " (sonder aanhalingstekens). Om die werf behoorlik te blokkeer om met behulp van robots.txt te indekseer, moet jy die besonderhede van gewilde soekenjins ken.
Die feit is dat die gewildste soekenjins Yandex en Google verskeie bots het. Elkeen van hulle het sy eie take. Byvoorbeeld, Yandex Bot en Googlebot is die hoof "spinnekoppe" wat die werf deurkruip. As jy al die bots ken, sal dit makliker wees om die indeksering van jou hulpbron te verfyn.
Voorbeelde
Dus, met behulp van robots.txt, kan jy die webwerf van indeksering sluit met eenvoudige opdragte, die belangrikste ding is om te verstaan wat jy spesifiek nodig het. As jy byvoorbeeld wil hê dat Googlebot nie jou hulpbron moet nader nie, moet jy dit die toepaslike opdrag gee. Dit sal soos volg lyk: "Gebruiker-agent: Googlebot Disallow: /" (sonder aanhalingstekens).
Nou moet ons verstaan wat in hierdie opdrag is en hoe dit werk. Dus "Gebruiker-agent"word gebruik om 'n direkte oproep na een van die bots te gebruik. Vervolgens dui ons aan aan watter een, in ons geval is dit Google. Die "Disallow"-opdrag moet op 'n nuwe reël begin en die robot verbied om die webwerf te betree. Die skuinsstreepsimbool in hierdie geval dui aan dat alle bladsye van die hulpbron gekies is vir die opdraguitvoering.
In robots.txt kan jy indeksering vir alle soekenjins deaktiveer met 'n eenvoudige opdrag: "User-agent:Disallow: /" (sonder aanhalingstekens). Die asterisk-karakter dui in hierdie geval alle soekrobotte aan. Tipies is so 'n opdrag nodig om die indeksering van die webwerf te onderbreek en kardinale werk daaraan te begin, wat andersins die optimalisering kan beïnvloed.
As die hulpbron groot is en baie bladsye het, bevat dit dikwels eie inligting wat óf onwenslik is om bekend te maak, óf dit kan bevordering negatief beïnvloed. In hierdie geval moet jy verstaan hoe om die bladsy te sluit van indeksering in robots.txt.
Jy kan óf 'n gids óf 'n lêer versteek. In die eerste geval moet jy weer begin deur 'n spesifieke bot of almal te kontak, so ons gebruik die "User-agent" opdrag, en hieronder spesifiseer ons die "Disallow" opdrag vir 'n spesifieke gids. Dit sal soos volg lyk: "Disallow: / folder /" (sonder aanhalingstekens). Op hierdie manier versteek jy die hele vouer. As dit 'n belangrike lêer bevat wat jy graag wil wys, dan moet jy die opdrag hieronder skryf: "Allow: /folder/file.php" (sonder aanhalingstekens).
Gaan lêer na
As jy robots.txt gebruik om die werf van te sluitJy het daarin geslaag om te indekseer, maar jy weet nie of al jou instruksies reg gewerk het nie, jy kan die korrektheid van die werk nagaan.
Eers moet jy die plasing van die dokument weer nagaan. Onthou dat dit uitsluitlik in die hoofmap moet wees. As dit in die hoofmap is, sal dit nie werk nie. Maak dan die blaaier oop en voer die volgende adres daar in: "https://yoursite. com/robots.txt" (sonder aanhalingstekens). As jy 'n fout in jou webblaaier kry, is die lêer nie waar dit moet wees nie.
Directives kan nagegaan word in spesiale nutsgoed wat deur byna alle webmasters gebruik word. Ons praat oor Google- en Yandex-produkte. Byvoorbeeld, in Google Search Console is daar 'n nutsbalk waar jy "Crawl" moet oopmaak en dan die "Robots.txt File Inspection Tool" moet laat loop. Jy moet al die data van die dokument na die venster kopieer en begin skandeer. Presies dieselfde kontrole kan in Yandex. Webmaster gedoen word.