Hoe om Robots.txt korrek op te stel?

INHOUDSOPGAWE:

Hoe om Robots.txt korrek op te stel?
Hoe om Robots.txt korrek op te stel?
Anonim

Die korrekte Robots-txt vir die HTML-werf skep aksiemodelle vir soekenjinbots, wat hulle vertel wat hulle kan nagaan. Daar word dikwels na hierdie lêer verwys as die Robot-uitsluitingsprotokol. Die eerste ding waarna bots soek voordat hulle 'n webwerf deurkruis, is robots.txt. Dit kan verwys na of die werfkaart vertel om nie sekere subdomeine na te gaan nie. As jy wil hê dat soekenjins moet soek na wat die meeste gevind word, is robots.txt nie nodig nie. Dit is baie belangrik in hierdie proses dat die lêer korrek geformateer is en nie die gebruikerbladsy met die gebruiker se persoonlike data indekseer nie.

Robotskanderingsbeginsel

Die beginsel van robotskandering
Die beginsel van robotskandering

Wanneer 'n soekenjin 'n lêer teëkom en 'n verbode URL sien, deurkruip dit dit nie, maar dit kan dit indekseer. Dit is omdat selfs al word die robotte nie toegelaat om die inhoud te sien nie, kan hulle terugskakels onthou wat na die verbode URL wys. As gevolg van geblokkeerde toegang tot die skakel, sal die URL in soekenjins verskyn, maar sonder fragmente. As 'nvir die inkomende bemarkingstrategie word die korrekte Robots txt vir bitrix (Bitrix) vereis, hulle verskaf werfverifikasie op versoek van die gebruiker deur skandeerders.

Aan die ander kant, as die lêer nie behoorlik geformateer is nie, kan dit daartoe lei dat die webwerf nie in soekresultate verskyn nie en nie gevind word nie. Soekenjins kan nie hierdie lêer omseil nie. 'n Programmeerder kan die robots.txt van enige webwerf bekyk deur na sy domein te gaan en dit te volg met robots.txt, byvoorbeeld www.domain.com/robots.txt. Gebruik 'n instrument soos Unamo se SEO-optimeringsafdeling, waar jy enige domein kan invoer, en die diens sal inligting oor die bestaan van die lêer wys.

Beperkings vir skandering:

  1. Gebruiker het verouderde of sensitiewe inhoud.
  2. Beelde op die werf sal nie by beeldsoekresultate ingesluit word nie.
  3. Die webwerf is nog nie gereed vir demonstrasie om deur die robot geïndekseer te word nie.

Hou in gedagte dat die inligting wat 'n gebruiker van 'n soekenjin wil ontvang, beskikbaar is vir enigiemand wat die URL invoer. Moenie hierdie tekslêer gebruik om sensitiewe data te versteek nie. As die domein 'n 404 (nie gevind) of 410 (slaag) fout het, gaan die soekenjin die webwerf na ten spyte van die teenwoordigheid van robots.txt, in welke geval dit van mening is dat die lêer ontbreek. Ander foute soos 500 (interne bedienerfout), 403 (verbode), uitgetel of "nie beskikbaar nie" respekteer robots.txt-instruksies, maar omseil kan vertraag word totdat die lêer beskikbaar is.

Skep 'n soeklêer

Skep 'n soeklêer
Skep 'n soeklêer

BaieCMS-programme soos WordPress het reeds 'n robots.txt-lêer. Voordat hy Robots txt WordPress behoorlik instel, moet die gebruiker hulself vergewis van sy vermoëns om uit te vind hoe om toegang daartoe te verkry. As die programmeerder die lêer self skep, moet dit aan die volgende voorwaardes voldoen:

  1. Moet in kleinletters wees.
  2. Gebruik UTF-8-enkodering.
  3. Stoor in 'n teksredigeerder as 'n lêer (.txt).

Wanneer 'n gebruiker nie weet waar om dit te plaas nie, kontak hulle die webbedienersagtewareverkoper om uit te vind hoe om toegang tot die wortel van 'n domein te kry of om na die Google-konsole te gaan en dit af te laai. Met hierdie funksie kan Google ook kyk of die bot reg funksioneer en die lys werwe wat met die lêer geblokkeer is.

Die hoofformaat van die korrekte Robots-txt vir bitrix (Bitrix):

  1. Legend robots.txt.
  2. , voeg opmerkings by wat slegs as notas gebruik word.
  3. Hierdie opmerkings sal deur skandeerders geïgnoreer word saam met enige gebruikertikfoute.
  4. User-agent - dui aan op watter soekenjin die instruksies vir die lêer gelys is.
  5. Die byvoeging van 'n asterisk () vertel skandeerders dat die instruksies vir almal is.

Dui 'n spesifieke bot aan, byvoorbeeld Googlebot, Baiduspider, Applebot. Disallow vertel deurkruisers watter dele van die webwerf nie deurkruis moet word nie. Dit lyk soos volg: User-agent:. Die asterisk beteken "alle bots". U kan egter bladsye vir spesifiek spesifiseerbots. Om dit te doen, moet jy die naam weet van die bot waarvoor aanbevelings gestel is.

Die korrekte robots-txt vir Yandex lyk dalk soos volg:

Korrekte robots txt vir Yandex
Korrekte robots txt vir Yandex

As die bot nie die webwerf moet deurkruis nie, kan jy dit spesifiseer, en om die name van gebruikeragente te vind, word dit aanbeveel om jouself te vergewis van die aanlyn vermoëns van useragentstring.com.

Bladsyoptimering

Bladsy optimering
Bladsy optimering

Die volgende twee reëls word as 'n volledige robots.txt-lêer beskou, en 'n enkele robots-lêer kan veelvuldige reëls van gebruikeragente en -instruksies bevat wat deurkruising deaktiveer of aktiveer. Die hoofformaat van die korrekte Robots txt:

  1. Gebruikersagent: [agentgebruikernaam].
  2. Disallow: .

In die lêer word elke blok instruksies as diskreet vertoon, geskei deur 'n lyn. In die lêer langs die agent-gebruikersgids word elke reël toegepas op 'n spesifieke stel afdeling-geskeide lyne. As 'n lêer 'n multi-agent-reël het, sal die robot net die mees spesifieke groep instruksies oorweeg.

Tegniese sintaksis

Tegniese sintaksis
Tegniese sintaksis

Dit kan beskou word as die "taal" van robots.txt-lêers. Daar is vyf terme wat in hierdie formaat kan bestaan, die belangrikstes sluit in:

  1. Gebruiker-agent - Webkruiper met kruip-instruksies, gewoonlik 'n soekenjin.
  2. Disallow is 'n opdrag wat gebruik word om die gebruikeragent te vertel om te omseil(weglating) van 'n spesifieke URL. Daar is net een verbode voorwaarde vir elkeen.
  3. Laat toe. Vir die Googlebot wat toegang kry, word selfs die gebruikerbladsy geweier.
  4. Crawl-delay - spesifiseer hoeveel sekondes die deurkruiper sal benodig voordat dit deurkruip word. Wanneer die bot dit nie bevestig nie, word die spoed in die Google-konsole gestel.
  5. Werfkaart - Word gebruik om enige XML-kaarte wat met 'n URL geassosieer word op te spoor.

Patroonpassings

Wanneer dit kom by die werklike blokkering van URL's of om geldige Robots-txt toe te laat, kan die bewerkings nogal moeilik wees, aangesien dit jou toelaat om patroonpassing te gebruik om 'n aantal moontlike URL-parameters te dek. Google en Bing gebruik albei twee karakters wat bladsye of subvouers identifiseer wat die SEO wil uitsluit. Die twee karakters is die asterisk () en die dollarteken ($), waar:'n jokerteken is wat enige volgorde van karakters verteenwoordig. $ - pas by die einde van die URL.

Google bied 'n groot lys van moontlike sjabloon-sintakse wat aan die gebruiker verduidelik hoe om 'n Robots txt-lêer behoorlik op te stel. Sommige algemene gebruiksgevalle sluit in:

  1. Verhoed dat duplikaatinhoud in soekresultate verskyn.
  2. Hou alle afdelings van die webwerf privaat.
  3. Stoor interne bladsye van soekresultate gebaseer op oop stelling.
  4. Dui ligging aan.
  5. Verhoed soekenjins om sekere te indekseerlêers.
  6. Spesifiseer 'n deurkruipvertraging om herlaai te stop wanneer verskeie inhoudareas gelyktydig geskandeer word.

Kontroleer tans vir die teenwoordigheid van 'n robotlêer

As daar geen areas op die werf is wat deurkruis moet word nie, is robots.txt glad nie nodig nie. As die gebruiker nie seker is dat hierdie lêer bestaan nie, moet hy die worteldomein invoer en dit aan die einde van die URL tik, iets soos hierdie: moz.com/robots.txt. 'n Aantal soekrobotte ignoreer hierdie lêers. As 'n reël behoort hierdie kruipers egter nie aan betroubare soekenjins nie. Hulle is die soort spammers, posversamelaars en ander soorte outomatiese bots wat in oorvloed op die internet gevind word.

Dit is baie belangrik om te onthou dat die gebruik van die robot-uitsluitingstandaard nie 'n effektiewe sekuriteitsmaatreël is nie. Trouens, sommige bots kan begin met bladsye waar die gebruiker hulle op skandeermodus stel. Daar is verskeie dele wat in die standaard uitsonderingslêer ingaan. Voordat jy vir die robot sê op watter bladsye dit nie moet werk nie, moet jy spesifiseer met watter robot om te praat. In die meeste gevalle sal die gebruiker 'n eenvoudige verklaring gebruik wat "alle bots" beteken.

SEO-optimering

SEO optimalisering
SEO optimalisering

Voor optimering moet die gebruiker seker maak dat hy geen inhoud of gedeeltes van die webwerf blokkeer wat omseil moet word nie. Skakels na bladsye wat deur die korrekte Robots txt geblokkeer word, sal nie gerespekteer word nie. Dit beteken:

  1. As hulle nie gekoppel is aan ander bladsye wat vir soekenjins beskikbaar is, bv. bladsye,nie deur robots.txt of 'n meta-robot geblokkeer nie, en verwante hulpbronne sal nie deurkruis word nie en kan dus nie geïndekseer word nie.
  2. Geen skakel kan van 'n geblokkeerde bladsy na die skakelbestemming oorgedra word nie. As daar so 'n bladsy is, is dit beter om 'n ander blokkeermeganisme as robots.txt te gebruik.

Omdat ander bladsye direk kan skakel na 'n bladsy wat persoonlike inligting bevat en jy hierdie bladsy van soekresultate wil blokkeer, gebruik 'n ander metode, soos wagwoordbeskerming of noindex-metadata. Sommige soekenjins het verskeie gebruikersagente. Google gebruik byvoorbeeld Googlebot vir organiese soektogte en Googlebot-Image vir beeldsoektogte.

Die meeste gebruikersagente van dieselfde soekenjin volg dieselfde reëls, so dit is nie nodig om riglyne vir elk van verskeie deurkruipers te spesifiseer nie, maar om dit te kan doen, kan die deurkruip van werf-inhoud fyn instel. Die soekenjin kas die inhoud van die lêer, en werk gewoonlik die inhoud in die kas minstens een keer per dag op. As die gebruiker die lêer verander en dit vinniger as gewoonlik wil opdateer, kan hulle die robots.txt-URL by Google indien.

Soekenjins

Kontroleer tans vir die bestaan van 'n robotlêer
Kontroleer tans vir die bestaan van 'n robotlêer

Om te verstaan hoe Robots txt reg werk, moet jy weet van die vermoëns van soekenjins. Kortliks lê hul vermoë daarin dat hulle "skandeerders" stuur, wat programme is watdeur op die internet te blaai vir inligting. Hulle stoor dan van hierdie inligting om dit later aan die gebruiker deur te gee.

Vir baie mense is Google reeds die internet. Trouens, hulle is reg, aangesien dit miskien sy belangrikste uitvinding is. En hoewel soekenjins baie verander het sedert hul ontstaan, is die onderliggende beginsels steeds dieselfde. Crawlers, ook bekend as "bots" of "spiders", vind bladsye van miljarde webwerwe. Soekenjins gee vir hulle aanwysings oor waarheen om te gaan, terwyl individuele werwe ook met bots kan kommunikeer en vir hulle kan sê na watter spesifieke bladsye hulle moet kyk.

Oor die algemeen wil werfeienaars nie in soekenjins verskyn nie: administrasiebladsye, agterplaasportale, kategorieë en etikette en ander inligtingsbladsye. Die robots.txt-lêer kan ook gebruik word om te verhoed dat soekenjins bladsye nagaan. Kortom, robots.txt vertel webkruipers wat om te doen.

Verbied bladsye

Dit is die hoofdeel van die robot-uitsluitinglêer. Met 'n eenvoudige verklaring vertel die gebruiker 'n bot of groep bots om nie sekere bladsye te deurkruip nie. Die sintaksis is eenvoudig, byvoorbeeld, om toegang tot alles in die webwerf se "admin" gids te weier, skryf: Disallow: /admin. Hierdie reël sal verhoed dat bots yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html, en enigiets anders onder die admin-gids deurkruip.

Om een bladsy te weier, spesifiseer dit eenvoudig in die disallow-reël: Disallow: /public/exception.html. Nou die "uitsondering" bladsysal nie migreer nie, maar alles anders in die "publieke" vouer sal.

Om veelvuldige bladsye in te sluit, lys hulle eenvoudig:

Gidse en bladsye
Gidse en bladsye

Hierdie vier reëls van die korrekte Robots-txt vir simfonie sal van toepassing wees op enige gebruikeragent wat bo-aan dierobots.txt-afdeling gelys is vir

Verban bladsye
Verban bladsye

werfkaart:

Ander opdragte:regstreeks - moenie webkruipers toelaat om cpresources/ of provider/ te indekseer nie.

Gebruikersagent:Disallow: /cpresources/.

Weiger: / verkoper / Weiger: /.env.

Stel standaarde

Gebruiker kan spesifieke bladsye vir verskillende bots spesifiseer deur die vorige twee elemente te kombineer, dit is hoe dit lyk. 'n Voorbeeld van die korrekte Robots txt vir alle soekenjins word hieronder aangebied.

Stel Standaarde
Stel Standaarde

Die "admin" en "privaat" afdelings sal onsigbaar wees vir Google en Bing, maar Google sal steeds die "geheime" gids sien, terwyl Bing nie sal sien nie. Jy kan algemene reëls vir alle bots spesifiseer deur die asterisk-gebruikersagent te gebruik, en dan spesifieke instruksies aan die bots in die volgende afdelings gee. Met die kennis hierbo kan die gebruiker 'n voorbeeld van die korrekte Robots txt vir alle soekenjins skryf. Skakel net jou gunsteling teksredigeerder aan en sê vir die bots dat hulle nie welkom is in sekere dele van die werf nie.

Wenke vir die verbetering van bedienerwerkverrigting

SublimeTeks is'n veelsydige teksredigeerder en die goue standaard vir baie programmeerders. Sy programmeringswenke is boonop gebaseer op doeltreffende kodering. gebruikers waardeer die teenwoordigheid van kortpaaie in die program. As die gebruiker 'n voorbeeld van 'n robots.txt-lêer wil sien, moet hulle na enige webwerf gaan en "/robots.txt" aan die einde byvoeg. Hier is 'n deel van die robots.txt-lêer GiantBicycles.

Die program verskaf die skepping van bladsye wat gebruikers nie in soekenjins wil wys nie. En het ook 'n paar eksklusiewe dinge waarvan min mense weet. Byvoorbeeld, terwyl die robots.txt-lêer bots vertel waarheen hulle nie moet gaan nie, doen die werfkaartlêer die teenoorgestelde en help hulle om te vind waarna hulle soek, en terwyl soekenjins waarskynlik reeds weet waar die werfkaart geleë is, kry dit nie in die pad.

Daar is twee tipes lêers: HTML-bladsy of XML-lêer. 'n HTML-bladsy is een wat besoekers al die beskikbare bladsye op 'n webwerf wys. In sy eie robots.txt lyk dit so: Sitemap://www.makeuseof.com/sitemap_index.xml. As die webwerf nie deur soekenjins geïndekseer word nie, alhoewel dit verskeie kere deur webrobotte deurkruis is, moet jy seker maak dat die lêer teenwoordig is en dat sy toestemmings korrek gestel is.

Dit sal by verstek met alle SeoToaster-installasies gebeur, maar indien nodig, kan jy dit so terugstel: Lêer robots.txt - 644. Afhangende van die PHP-bediener, as dit nie vir die gebruiker werk nie, sal dit word aanbeveel om die volgende te probeer: File robots.txt - 666.

Stel die skanderingvertraging

Die omseilvertragings-aanwysing stel sekere in kennissoekenjins hoe gereeld hulle 'n bladsy op die webwerf kan indekseer. Dit word in sekondes gemeet, hoewel sommige soekenjins dit effens anders interpreteer. Sommige mense sien kruipvertraging 5 wanneer hulle aangesê word om vyf sekondes te wag na elke skandering om die volgende een te begin.

Ander interpreteer dit as 'n opdrag om net een bladsy elke vyf sekondes te skandeer. Die robot kan nie vinniger skandeer om bedienerbandwydte te bespaar nie. As die bediener by die verkeer moet pas, kan dit 'n omseilvertraging stel. Oor die algemeen hoef gebruikers in die meeste gevalle nie hieroor bekommerd te wees nie. Dit is hoe die kruipvertraging van agt sekondes gestel word - Kruipvertraging: 8.

Maar nie alle soekenjins sal hierdie opdrag gehoorsaam nie, so wanneer jy bladsye verbied, kan jy verskillende kruipvertragings vir sekere soekenjins stel. Nadat al die instruksies in die lêer opgestel is, kan jy dit oplaai na die werf, maak eers seker dat dit 'n eenvoudige tekslêer is en die naam robots.txt het en gevind kan word by yoursite.com/robots.txt.

Beste WordPress-bot

Beste WordPress Bot
Beste WordPress Bot

Daar is 'n paar lêers en gidse op 'n WordPress-werf wat elke keer gesluit moet word. Die gidse wat gebruikers nie moet toelaat nie, is die cgi-bin-gids en die standaard WP-gidse. Sommige bedieners laat nie toegang tot die cgi-bin-gids toe nie, maar gebruikers moet dit by die disallow-instruksie insluit voordat hulle Robots txt WordPress behoorlik opstel

Standaard WordPress-gidse,wat moet blokkeer is wp-admin, wp-content, wp-includes. Hierdie gidse bevat nie data wat aanvanklik nuttig is vir soekenjins nie, maar daar is 'n uitsondering, dit wil sê daar is 'n subgids met die naam oplaaie in die wp-inhoudgids. Hierdie subgids moet in die robot.txt-lêer toegelaat word, aangesien dit alles insluit wat met die WP-media-oplaaifunksie gelaai word. WordPress gebruik merkers of kategorieë om inhoud te struktureer.

As kategorieë gebruik word, dan is dit nodig om die merker-argiewe van die soektog te blokkeer om die korrekte Robots-txt vir Wordpress te maak, soos gespesifiseer deur die programvervaardiger. Eerstens gaan hulle die databasis na deur na die "Administrasie"-paneel> "Settings"> "Permalink" te gaan.

By verstek is die basis die merker, as die veld leeg is: Disallow: / tag /. As 'n kategorie gebruik word, moet jy die kategorie in die robot.txt-lêer deaktiveer: Disallow: /category/. By verstek is die basis die merker, as die veld leeg is: Disallow: / tag /. As 'n kategorie gebruik word, moet jy die kategorie in die robot.txt-lêer deaktiveer: Disallow: / kategorie /.

Lêers wat hoofsaaklik gebruik word vir die vertoon van inhoud, hulle sal geblokkeer word deur die korrekte Robots txt-lêer vir Wordpress:

Robots txt vir wordpress
Robots txt vir wordpress

Joomla basiese opstelling

Sodra die gebruiker Joomla geïnstalleer het, moet jy die korrekte Joomla Robots txt-instelling in die globale konfigurasie sien, wat in die beheerpaneel geleë is. Sommige instellings hier is baie belangrik vir SEO. Soek eers die naam van die webwerf en maak seker datdie kort naam van die webwerf word gebruik. Dan vind hulle 'n groep instellings aan die regterkant van dieselfde skerm, wat SEO-instellings genoem word. Die een wat beslis sal moet verander, is die tweede een: gebruik 'n herskryf-URL.

Dit klink ingewikkeld, maar dit help basies Joomla om skoner URL's te skep. Mees opvallend as jy die index.php-reël van die URL's verwyder. As jy dit later verander, sal die URL'e verander en Google sal nie daarvan hou nie. Wanneer hierdie instelling egter verander word, moet verskeie stappe op dieselfde tyd geneem word om die korrekte robots txt vir Joomla te skep:

  1. Vind htaccess.txt-lêer in Joomla-hooflêergids.
  2. Merk dit as.htaccess (geen uitbreiding).
  3. Sluit werfnaam by bladsytitels in.
  4. Vind metadata-instellings onderaan die globale konfigurasieskerm.

Robot in die wolk MODX

Robot in die MODX Wolk
Robot in die MODX Wolk

Voorheen het MODX Cloud aan gebruikers die vermoë verskaf om die gedrag te beheer om toe te laat dat die robots.txt-lêer bedien word op grond van 'n skakelaar in die dashboard. Alhoewel dit nuttig was, was dit moontlik om per ongeluk indeksering op staging/dev-werwe toe te laat deur 'n opsie in die Dashboard te wissel. Net so was dit maklik om indeksering op die produksiewerf te deaktiveer.

Vandag aanvaar die diens die teenwoordigheid van robots.txt-lêers in die lêerstelsel met die volgende uitsondering: enige domein wat eindig met modxcloud.com sal dien as 'n Disallow: /directive vir alle gebruikeragente, ongeag die teenwoordigheid of afwesigheid van die lêer. Produksiewerwe wat werklike besoekersverkeer ontvang, sal hul eie domein moet gebruik as die gebruiker hul werf wil indekseer.

Sommige organisasies gebruik die korrekte Robots-txt vir modx om verskeie webwerwe vanaf 'n enkele installasie te laat loop deur Contexts te gebruik. 'n Geval waarin dit toegepas kan word, is 'n publieke bemarkingswerf gekombineer met bestemmingsbladsymikrowebwerwe en moontlik 'n nie-openbare intranet.

Tradisioneel was dit moeilik om te doen vir veelgebruiker-installasies aangesien hulle dieselfde netwerkwortel deel. Met MODX Cloud is dit maklik. Laai eenvoudig 'n ekstra lêer op na 'n webwerf genaamd robots-intranet.example.com.txt met die volgende inhoud en dit sal indeksering met goedwerkende robots blokkeer en alle ander gasheername val terug na standaardlêers, tensy daar ander spesifieke naamnodes is.

Robots.txt is 'n belangrike lêer wat die gebruiker help om na die webwerf op Google, groot soekenjins en ander webwerwe te skakel. Geleë aan die wortel van 'n webbediener, gee die lêer opdrag aan webrobotte om 'n webwerf te deurkruis, stel watter vouers dit moet of nie moet indekseer nie, met behulp van 'n stel instruksies genaamd die Bot-uitsluitingsprotokol. 'n Voorbeeld van die korrekte Robots txt vir alle soekenjins obots.txt is veral maklik om te doen met SeoToaster. 'n Spesiale spyskaart is daarvoor in die beheerpaneel geskep, so die bot sal nooit hoef te oorwerk om toegang te kry nie.

Aanbeveel: