Google is enorm sterk in het op eigen houtje vinden, doorzoeken en indexeren van allerlei websites op internet. Dat is natuurlijk niet zo vreemd want zoeken is de core business van Google. Soms wil je echter vermijden dat bepaalde inhoud van je website of zelfs een gehele website terecht komt in de zoekresultaten van Google. Dat is zeker het geval voor je test website.
Als je een nieuwe website laat ontwikkelen of een bestaande operationele website wil testen op nieuwe functionaliteit, zal je leverancier zeer waarschijnlijk gebruik maken van een afzonderlijke ontwikkelomgeving. Dergelijke testomgeving bevindt zich op een ander adres en maakt het mogelijk om nieuwe zaken eerst te bekijken en te testen voor ze worden gepubliceerd op je publieke domeinnaam. Het adres van je test website kan vele vormen aannemen, bijvoorbeeld een subdomein op je eigen domeinnaam (vb. dev.jedomeinnaam.be) of een afzonderlijk adres bij je leverancier (vb. jouwbedrijf.jouwleverancier.be).
Het is enorm belangrijk om maatregelen te treffen zodat Google (en andere zoekmachines) je test website niet doorzoeken en indexeren. Doe je dat niet dan is de kans zeer groot dat pagina's van je test website opgenomen worden in zoekresultaten. Bovendien kan dit een zeer negatief effect hebben op de vindbaarheid (SEO) van je operationele website omdat die exact dezelfde inhoud bevat als je test website. Google toont dan enkel de inhoud die als eerste werd gevonden en geindexeerd.
In het slechtste geval is het dus zelfs mogelijk dat Google besluit dat je test website de primaire eerste versie is en enkel die resultaten toont in de zoekresultaten in plaats van de inhoud op je operationele website.
`Om te controleren of je test site werd geindexeerd door Google gebruik je de volgende zoekterm
site:dev.jouwdomein.be
waarbij je dev.jouwdomein.be vervangt door het adres van je test website.`
Gelukkig zijn er een aantal manieren om te vermijden dat Google (en andere zoekmachines) je test website doorzoeken en indexeren.
Zoekmachines blokkeren op je test website
Zoekmachines blokkeren met robots.txt
De eenvoudigste en snelste manier om zoekmachines te blokkeren is door gebruik te maken van een robots.txt bestand.
Robots.txt is een plat tekstbestand wat gebruikt wordt om te communiceren met allerlei bots die het internet automatisch doorzoeken. Het bestand bevindt zich in de hoofdfolder (root) van je website en vertelt bots welke inhoud ze wel en niet horen te scannen. Dat kan voor een deel van je website gelden of je gehele website.
Met andere woorden, je kan met een robots.txt bestand vermijden dat zoekmachines pagina's en bestanden van je test website scannen en indexeren.
User-agent: Googlebot
Disallow: /
Met bovenstaande tekst in je robots.txt bestand vertel je de zoekrobots van Google dat het niet is toegestaan om de gehele site te doorzoeken. Wil je dat voor alle bots vermijden, dan vervang je Googlebot door een sterretje (*).
Zoekmachines blokkeren in WordPress
Als je gebruik maakt van WordPress is het nog eenvoudiger. Ga via Instellingen » Lezen en vink het vakje aan bij Zoekmachine zichtbaarheid (Blokkeer zoekmachines om deze site te indexeren).
Speel op zeker: blokkeer je test website met IP-adressen of wachtwoord
Google en andere zoekmachines houden zich in principe aan de richtlijnen die je in een robots.txt definieert. Het gebruik van robots.txt geeft echter geen absolute garantie. Het vermijdt ook niet dat gewone bezoekers nog altijd terecht kunnen komen op je test website. Dat is niet alleen vervelend maar kan ook zeer verwarrend zijn en bovendien leiden tot minder resultaten op je operationele website.
Voor een ontwikkelomgeving is het veel beter om te kiezen voor toegang op basis van specifieke IP-adressen of gebruikersnamen met wachtwoorden. Enkel op die manier ben je helemaal zeker dat geen enkele bot of echte bezoeker ooit de inhoud van je test website kan zien.