Back to Question Center
0

Semalt bied wenke oor hoe om bots, spinnekoppe en kruipers te hanteer

1 answers:

Afgesien van die skep van vriendelike URL's , laat die .htaccess-lêer webmasters blokbotsings toe om toegang tot hul webwerf te verkry. Een manier om hierdie robots te blokkeer, is deur die robots.txt-lêer. Ross Barber, die Semalt kliënt Suksesbestuurder, verklaar egter dat hy 'n paar crawlers gesien het wat hierdie versoek ignoreer. Een van die beste maniere is om die .htaccess-lêer te gebruik om hulle te keer om jou inhoud te indekseer.

Wat is hierdie bots?

Dit is 'n tipe sagteware wat deur soekenjins gebruik word om nuwe inhoud van die internet vir indeksdoeleindes te verwyder.

Hulle voer die volgende take uit:

  • Besoek webbladsye wat jy gekoppel het aan
  • Kontroleer jou HTML-kode vir foute
  • Hulle stoor watter webbladsye jy skakel en sien watter webbladsye skakel na jou inhoud
  • Hulle indekseer jou inhoud

Sommige bots is egter kwaadwillig en soek jou werf vir e-posadresse en vorms wat gewoonlik gebruik word om u ongewenste boodskappe of strooipos te stuur. Ander kyk selfs na sekuriteitsmotte in jou kode.

Wat is nodig om webkruipers te sluit?

Voordat u die .htaccess-lêer gebruik, moet u die volgende dinge nagaan:

1. Jou webwerf moet op 'n Apache-bediener vertoon word. Deesdae, selfs die webhosting maatskappye wat halfwaardig in hul werk is, gee jou toegang tot die vereiste lêer.

2. U moet toegang hê tot die rou bediener logs van u webwerf sodat u kan vasstel watter bots u webblaaie besoek het.

Let daarop dat jy nie alle skadelike bots kan blokkeer nie, tensy jy almal blokkeer, selfs diegene wat jy as nuttig beskou. Nuwe bots kom elke dag op, en ouer mense word gewysig. Die mees doeltreffende manier is om jou kode te beveilig en maak dit moeilik om bots te spam.

Identifiseer botsies

Bots kan óf deur die IP-adres of van hul "User Agent String" geïdentifiseer word, wat hulle in die HTTP-hoofde stuur. Byvoorbeeld, Google gebruik "Googlebot."

U kan hierdie lys met 302 bots benodig as u reeds die naam van die bot wat u graag wil onthou, gebruik .htaccess

Nog 'n manier is om al die loglêers van die bediener af te laai en dit oop te maak met behulp van 'n teksredakteur. Hul ligging op die bediener kan verander afhangende van die konfigurasie van jou bediener. hulp van u webhost.

As jy weet watter bladsy besoek is, of die tyd van besoek, is dit makliker om met 'n ongewenste bot te kom. U kan die logbestand met hierdie parameters soek.

Een keer het jy opgemerk watter bots jy moet blokkeer; U kan dit dan in die. Htaccess-lêer insluit. Let asseblief daarop dat die blokkering van die bot nie genoeg is om dit te stop nie. Dit kan terugkom met 'n nuwe IP of naam.

Hoe om hulle te blokkeer

Laai 'n afskrif van die .htaccess-lêer af. Maak rugsteun indien nodig.

Metode 1: blokkeer deur IP

Hierdie kode breek die bot uit deur gebruik te maak van die IP-adres 197.0.0.1

Bestelling Ontken, toestaan ​​

Ontken vanaf 197.0.0.1

Die eerste reël beteken dat die bediener alle versoeke wat ooreenstem met die patrone wat u gespesifiseer het, sal sluit en alle ander toelaat.

Die tweede reël vertel die bediener om 'n 403: verbode bladsy

uit te reik.

Metode 2: Blokkering deur Gebruikersagente

Die maklikste manier is om Apache se herskryf enjin

te gebruik.

Hersien Enigine Aan

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Die eerste reël verseker dat die herskripmodule geaktiveer is. Lyn twee is die toestand waarvoor die reël van toepassing is. Die "F" in reël 4 vertel die bediener om 'n 403 terug te stuur: Verbode terwyl die "L" beteken dit is die laaste reël.

U sal dan die .htaccess-lêer op u bediener oplaai en die bestaande een oorskryf. Met verloop van tyd sal jy die bot se IP moet opdateer. As u 'n fout maak, moet u die rugsteun wat u gemaak het, laai.

November 29, 2017
Semalt bied wenke oor hoe om bots, spinnekoppe en kruipers te hanteer
Reply