Skilgreining á Spidering og Web Crawlers

Köngulær og vefur crawlers: Það sem þú þarft að vita til að vernda vefsíðugögn

Köngulær eru forrit (eða sjálfvirk skrif) sem "skríða" í gegnum netið að leita að gögnum. Köngulær ferðast í gegnum vefslóðir og geta dregið gögn úr vefsíðum eins og netföngum. Köngulær eru einnig notaðar til að fæða upplýsingar sem finnast á vefsíðum á leitarvélum.

Köngulær, sem einnig eru nefnd "vefskriðlarar" leita á vefnum og ekki allir eru vingjarnlegur í þeirra ásetningi.

Spammers Spider Websites til að safna upplýsingum

Google, Yahoo!

og aðrar leitarvélar eru ekki þau eini sem hafa áhuga á að skríða vefsíður - svo eru svindlarar og spammers.

Köngulær og önnur sjálfvirk tæki eru notuð af spammers til að finna netföng (á internetinu er þetta æfingin oft kallað "uppskeru") á vefsíðum og síðan notaðu þau til að búa til ruslpóstlista.

Köngulær eru einnig verkfæri sem notuð eru af leitarvélum til að finna út fleiri upplýsingar um vefsíðuna þína en vinstri óskoðaðar, vefsvæði án fyrirmæla (eða "heimildir") um hvernig á að skríða á síðuna þína getur haft í för með sér mikla upplýsingaöryggisáhættu. Köngulær ferðast með því að fylgja tenglum og þeir eru mjög duglegir að finna tengla á gagnagrunna, forritaskrár og aðrar upplýsingar sem þú getur ekki viljað hafa aðgang að.

Vefstjóra geta skoðað skrár til að sjá hvaða köngulær og aðrir vélmenni hafa heimsótt vefsvæði sín. Þessar upplýsingar hjálpa vefstjóra að vita hver er flokkun vefsvæðisins og hversu oft.

Þessar upplýsingar eru gagnlegar vegna þess að það gerir vefstjóra kleift að fínstilla SEO og uppfæra vélmenni.txt skrár til að banna ákveðnar vélmenni frá að skríða á síðuna sína í framtíðinni.

Ábendingar um að vernda vefsíðuna þína frá óæskilegum Robot Crawlers

Það er frekar einföld leið til að halda óæskilegum vefskriðlum úr vefsvæðinu þínu. Jafnvel þótt þú hafir ekki áhyggjur af illgjarn köngulær sem skrið á síðuna þína (óvirkt netfang mun ekki vernda þig frá flestum crawlers) ættir þú samt að þurfa að veita leitarvélum mikilvægar leiðbeiningar.

Allir vefsíður ættu að hafa skrá sem er staðsett í rótarskránni sem heitir robots.txt skrá. Þessi skrá gerir þér kleift að leiðbeina vefskriðlarum þar sem þú vilt að þeir líta á vísitölusíður (nema annað sé tekið fram á metapökkum tiltekinna blaðsíðna sem ekki eru verðtryggðir) ef þeir eru leitarvél.

Rétt eins og þú getur sagt, vildu skriðdreka þar sem þú vilt að þau flettu, getur þú einnig sagt þeim hvar þau mega ekki fara og jafnvel loka fyrir tilteknum vefskriðlum úr öllu vefsíðunni þinni.

Mikilvægt er að hafa í huga að vel sett saman robots.txt skrá mun hafa gríðarlegt gildi fyrir leitarvélar og gæti jafnvel verið lykilatriði í því að bæta árangur vefsvæðis þíns, en sumir vélmenni crawlers vilja enn hunsa leiðbeiningar þínar. Af þessum sökum er mikilvægt að halda öllum hugbúnaði þínum, viðbótum og forritum ávallt að fullu.

Tengdar greinar og upplýsingar

Vegna algengi upplýsingaöflunar sem notaður var til ókunnugra (spam) tilganga var löggjöf samþykkt árið 2003 til að gera tilteknar aðferðir ólöglegar. Þessar neytendaverndarlög falla undir CAN-SPAM lögum frá 2003.

Mikilvægt er að þú takir tíma til að lesa upp á CAN-SPAM lögum ef fyrirtækið þitt starfar í einhverjum massa póstlista eða uppskeru upplýsinga.

Þú getur fundið út meira um ruslpóstalög og hvernig á að takast á við spammers og hvað þú sem eigandi fyrirtækis getur ekki gert með því að lesa eftirfarandi greinar: