Definisie van Spidering en Web Crawlers

Spiders & Web Crawlers: Wat jy moet weet om webwerf data te beskerm

Spinnekoppe is programme (of geoutomatiseerde skrifte) wat deur die web gesoek word op soek na data. Spinnekoppe reis deur webwerf-URL's en kan data van webbladsye soos e-posadresse trek. Spinnekoppe word ook gebruik om inligting op webwerwe aan soekenjins te verskaf.

Spinnekoppe, wat ook bekend staan ​​as 'web crawlers', soek die web en nie almal is vriendelik in hul voorneme nie.

Spammers Spider Websites om inligting te versamel

Google, Yahoo!

en ander soekenjins is nie die enigste wat belangstel in die kruip van webwerwe nie - so is scammers en spammers.

Spinnekoppe en ander outomatiese gereedskap word deur spammers gebruik om e-posadresse te vind (op die internet word hierdie praktyk dikwels as oes genoem) op webwerwe en gebruik hulle om strooiposlyste te skep.

Spinnekoppe is ook 'n hulpmiddel wat deur soekenjins gebruik word om meer inligting oor jou webwerf te vind, maar ongemerk gelaat, 'n webwerf sonder instruksies (of 'toestemmings') oor hoe om jou werf te kruip, kan belangrike inligtingsikkerheidsrisiko's aanleer. Spinnekoppe reis deur skakels te volg, en hulle is baie vaardig om skakels na databasisse, programlêers en ander inligting te vind waaraan hulle dalk nie toegang tot hulle wil hê nie.

Webmeesters kan logs sien om te sien watter spinnekoppe en ander robots hul webwerwe besoek het. Hierdie inligting help webmasters om te weet wie hul webwerf kruip, en hoe gereeld.

Hierdie inligting is nuttig omdat dit die webmasters toelaat om hul SEO te verfyn en robot.txt-lêers op te dateer om sekere robots te verbied om hulle werf in die toekoms te kruip.

Wenke om jou webwerf te beskerm teen ongewenste robots

Daar is 'n redelike eenvoudige manier om ongewenste crawlers uit jou webwerf te hou. Selfs as jy nie bekommerd is oor kwaadwillige spinnekoppe wat jou werf kruip nie, sal jou werfmotor nog belangrike instruksies moet verskaf.

Alle webwerwe moet 'n lêer hê in die wortelgids genaamd 'n robots.txt-lêer. Met hierdie lêer kan u webcrawlers instruksies gee waar u hulle wil soek na indeksbladsye (tensy anders vermeld in 'n spesifieke bladsy se metadata wat nie geïndekseer word nie) as hulle 'n soekenjin is.

Net soos jy kan sê wat soek crawlers waar jy wil hê hulle moet blaai, kan jy hulle ook vertel waar hulle nie mag gaan nie en selfs spesifieke crawlers van jou hele webwerf blokkeer.

Dit is belangrik om in gedagte te hou dat 'n goed saamgestelde robots.txt-lêer geweldige waarde vir soekenjins sal hê en selfs 'n belangrike element kan wees om die prestasie van jou webwerf te verbeter, maar sommige robots crawlers sal jou instruksies steeds ignoreer. Om hierdie rede is dit belangrik om te alle tye al jou sagteware, plugins en programme op datum te hou.

Verwante Artikels en Inligting

As gevolg van die voorkoms van inligtingsoesing wat gebruik word vir onwelvoeglike (spam) doeleindes, is in 2003 wetgewing aangeneem om sekere praktyke onwettig te maak. Hierdie wette op die gebied van consumentenbescherming val onder die CAN-SPAM-wet van 2003.

Dit is belangrik dat u die tyd neem om die CAN-SPAM-wet op te lees as u besigheid betrokke is by enige massa-pos of inligting-oes.

U kan meer uitvind oor antispamwette en hoe om spammers te hanteer, en wat u as sake-eienaar mag nie doen nie, deur die volgende artikels te lees: