Kako zatvoriti sajt od indeksiranja u robotima.txt: uputstva i preporuke

Robot Asistent
Funkcije dokumenta
Za šta služe roboti?.txt?
Rad sa fajlom
Funkcija robota
Primjeri
Provjera datoteke

Rad SEO optimizatora je veoma velikog obima. Specijalisti novajlija preporučuju se da zapišu algoritam optimizacije tako da ne propustite nijednu fazu. U suprotnom, promocija će biti teško nazvati uspješan, jer će sajt stalno doživljavaju kvarove i greške koje će morati da se ispravi za dugo vremena.

Jedan od koraka optimizacije je rad sa datotekom robota.txt. Svaki resurs treba da ima ovaj dokument, jer će bez njega biti teže izaći na kraj sa optimizacijom. Obavlja mnoge funkcije koje ćete morati razumjeti.

Robot Asistent

Datoteka robota.txt je običan tekst dokument koji se može pogledati u standardnom Notepad sistema. Kada ga kreirate, morate postaviti UTF-8 kodiranje tako da tačno čita. Datoteka radi sa http, https i FTP protokolima.

Ovaj dokument je pomoćnik robota za pretragu. Ako ne znate, onda svaki sistem koristi "pauke" koji brzo skeniraju World Wide Web da daju relevantne stranice zahtjevima korisnika. Ovi roboti moraju imati pristup podacima resursa, roboti za to rade.txt.

Da bi "pauci" pronašli put, morate poslati dokument robotima.txt u osnovni direktorij. Da biste provjerili ima li stranica ovaj fajl, unesite "https://site.com.ua / robots.txt". Umjesto " sajta.com.ua", potrebno je da unesete resurs koji vam je potreban.

Funkcije dokumenta

Roboti.txt fajl pruža robotima za pretragu nekoliko vrsta informacija. On može dati djelomičan pristup tako da "pauk" skenira određene elemente resursa. Potpuni pristup vam omogućava da provjerite sve dostupne stranice. Potpuna zabrana ne daje robotima priliku da čak i počnu provjeravati, a oni napuštaju stranicu.

Nakon posjete resursu," pauci" dobijaju odgovarajući odgovor na zahtjev. Možda ih ima nekoliko, sve ovisi o informacijama u robotima.txt. Na primer, ako je skeniranje bilo uspešno, robot će dobiti kod 2xx.

Moguće je da je na sajtu instalirano preusmjeravanje s jedne stranice na drugu. U ovom slučaju, robot prima kod 3xx. Ako se ovaj kod pojavi nekoliko puta," pauk " će ga pratiti sve dok ne dobije drugi odgovor. Iako, po pravilu, koristi samo 5 pokušaja. U suprotnom, pojavljuje se popularna greška 404 rezultata rezultata.

Ako je odgovor 4xx, to znači da je robotu dozvoljeno da skenira ceo sadržaj sajta. Ali u slučaju koda 5xx, provjera može potpuno prestati, jer to često ukazuje na privremene greške servera.

Za šta služe roboti?.txt?

Kao što ste možda pretpostavili, Ova datoteka je robot vodič za korijen stranice. Sada se koristi za djelomično ograničavanje pristupa neželjenom sadržaju:

stranice sa ličnim podacima korisnika;
ogledala;
;
obrasci za slanje podataka itd.

. Ako u korijenu web lokacije nema datoteke robota.txt, tada će robot skenirati apsolutno sav sadržaj. Shodno tome, neželjeni podaci se mogu pojaviti u izlazu, što znači da ćete i vi i sajt patiti. Ako u dokumentu roboti.txt ima posebna uputstva, Što znači da će ih" pauk " slijediti i davati informacije koje želi vlasnik resursa.

Rad sa fajlom

Za korištenje robota.txt zatvorite sajt od indeksiranja, morate shvatiti kako kreirati ovaj fajl. Da biste to učinili, slijedite upute:

Kreirajte dokument u Notepadu ili Notepadu++.
Instalirajte ekstenziju datoteke ".txt".
Unesite potrebne podatke i komande.
Sačuvajte dokument i otpremite ga u korijen stranice.

Kao što vidite, u jednoj od faza potrebno je postaviti komande za robote. Oni su dvije vrste: dopuštanje (dopuštanje) i zabrana (zabranu). Takođe, neki optimizatori mogu odrediti brzinu indeksiranja, host i vezu do mape stranice resursa.

Za početak s robotima.txt i potpuno zatvorite stranicu od indeksiranja, također je potrebno razumjeti korištene simbole. Na primjer, u dokumentu možete koristiti"/", što označava da je odabrana cijela stranica. Ako se koristi"*", tada je potreban niz znakova. Na ovaj način će biti moguće odrediti određeni folder koji se može skenirati ili ne.

Funkcija robota

"Pauci" u pretraživačima su različiti, pa ako radite za nekoliko pretraživača odjednom, onda ćete morati uzeti u obzir ovu tačku. Njihova imena su različita, što znači da ako želite da se pozovete na određenog robota, moraćete da navedete njegovo ime: "korisnički Agent: Yandex" (bez navodnika).

Ako želite postaviti direktive za sve pretraživače, tada morate koristiti naredbu: "Korisnički Agent: *" (bez navodnika). Da biste to ispravili koristeći robote.txt zatvorite stranicu od indeksiranja, morate saznati specifičnosti popularnih pretraživača.

Činjenica je da najpopularniji pretraživači Yandex i Google imaju nekoliko botova. Svaki od njih je angažovan u svojim zadacima. Na primjer, Yandex Bot i Googlebot su glavni "pauci" koji skeniraju stranicu. Poznavajući sve botove, biće lakše fino podesiti indeksiranje vašeg resursa.

Primjeri

Dakle, koristeći robote.txt možete zatvoriti sajt od indeksiranja sa jednostavnim komandama, glavna stvar je razumjeti, šta ti treba? konkretno. Na primjer, ako želite da Google robot ne prilazi vašem resursu, morate mu dati odgovarajuću komandu. Izgledaće kao: "korisnički agent: Googlebot Disallow: /" (bez navodnika).

Sada moramo da shvatimo šta je u ovoj komandi i kako funkcioniše. Dakle," User-agent " se koristi za korištenje direktne žalbe jednom od botova. Zatim navodimo koji je, u našem slučaju Google. Komanda "zabrani" treba da počne iz nove linije i zabrani robotu ulazak na sajt. Simbol kose crte u ovom slučaju označava da su sve stranice resursa odabrane za izvršavanje naredbe.

U robotima.txt zabrana indeksiranja za sve pretraživače može se izvršiti jednostavnom komandom: "User-agent: * Disallow: /" (bez navodnika). Simbol zvjezdice u ovom slučaju označava sve robote za pretragu. Obično je takva naredba potrebna kako bi se obustavilo indeksiranje stranice i započeo kardinalni rad na njemu, što bi inače moglo uticati na optimizaciju.

Ako je resurs velik i ima mnogo stranica, često postoje servisne informacije koje je ili nepoželjno otkriti, ili mogu negativno uticati na promociju. U ovom slučaju morate razumjeti, kako zatvoriti stranica od indeksiranja u robotima.txt.

Možete sakriti ili folder ili fajl. U prvom slučaju, potrebno je da počnete ponovo kontaktiranjem određenog bota ili svih, tako da koristimo komandu "User-agent", a ispod navodimo komandu" Disallow " za određeni folder. To će izgledati ovako: "Disallow: / folder /" (bez navodnika). Na ovaj način ćete sakriti cijeli folder. Ako u njemu postoji neki važan fajl koji želite da prikažete, onda morate da napišete komandu ispod: "dozvoli: / folder/.php fajl " (bez navodnika).

Provjera datoteke

Ako koriste robote.txt uspeli ste da zatvorite sajt od indeksiranja, ali ne znate da li su sve vaše Direktive radile ispravno, možete proveriti ispravnost rada.

Prvo morate ponovo provjeriti plasman dokumenta. Imajte na umu da mora biti isključivo u osnovnoj mapi. Ako je ušao u osnovni folder, neće raditi. Zatim otvorite pretraživač i tamo unesite sljedeću adresu: "http://вашсайт. com / roboti.txt "(bez navodnika). Ako se greška pojavi u web pretraživaču, to znači da fajl nije tamo gde bi trebao biti.

Direktive se mogu proveriti u specijalnim alatima koje koriste skoro svi webmasteri. Govorimo o Google i Yandex proizvodima. Na primjer, u Google Search Console postoji alatnoj traci u kojoj je potrebno da otvorite "Scan", a zatim pokrenite " robots file Verification Tool.txt". U prozoru morate kopirati sve podatke sa dokumenta i pokrenuti skeniranje. Tačno ista provjera može se obaviti u " Yandexu.Webmaster".