Het robots.txt-bestand vertelt zoekmachines welke delen van uw website ze wel en niet mogen crawlen. Een correct ingericht robots.txt voorkomt dat onbelangrijke pagina's worden gecrawld en helpt zoekmachines hun aandacht op de juiste content te richten. In dit artikel leest u hoe u robots.txt beheert in Webflow.
Probleem
Zoekmachines crawlen pagina's die u liever buiten de index houdt (zoals systeem- of testpagina's), of u wilt juist zeker weten dat belangrijke pagina's wel gecrawld worden, maar u weet niet waar u dit instelt.
Oorzaak
Zonder regels in robots.txt crawlen zoekmachines standaard alles wat ze kunnen bereiken. Webflow biedt een eigen veld om het robots.txt-bestand te beheren, maar als dit leeg is of verkeerd is ingevuld, kunt u ongewenst pagina's blokkeren of juist niets sturen.
Oplossing
U beheert het robots.txt-bestand via de SEO-instellingen van uw Webflow-project. Daar voegt u regels toe die per user-agent bepalen welke paden wel of niet gecrawld mogen worden, en verwijst u naar uw sitemap.
Stappenplan
- Open Project Settings > SEO in Webflow.
- Zoek het onderdeel robots.txt.
- Voeg de gewenste regels toe, bijvoorbeeld een User-agent-regel en Disallow-paden.
- Voeg een verwijzing naar uw sitemap toe.
- Klik op Publish om het bestand live te zetten.
- Controleer het bestand via uw-domein.nl/robots.txt.
Configuratievoorbeeld
Een eenvoudige robots.txt voor uw BDMNL-website:
- Regel 1: User-agent: *
- Regel 2: Disallow: /bedankt
- Regel 3: Sitemap: https://uw-domein.nl/sitemap.xml
- Effect: de bedankpagina wordt niet gecrawld, de rest wel, en de sitemap is vindbaar
Veelgemaakte fouten
- Per ongeluk "Disallow: /" plaatsen, waardoor de hele site wordt geblokkeerd voor zoekmachines.
- Robots.txt verwarren met noindex; robots.txt blokkeert crawlen, noindex voorkomt indexeren.
- Vergeten de sitemap toe te voegen aan robots.txt.
- Niet publiceren, waardoor de wijziging niet live staat.
Controle na afloop
Open uw-domein.nl/robots.txt en controleer of de regels kloppen. Gebruik de robots.txt-test in Google Search Console om te bevestigen dat belangrijke pagina's niet onbedoeld zijn geblokkeerd.
Praktische tips
- Wees voorzichtig met Disallow-regels; één verkeerde regel kan uw hele site uit de zoekresultaten houden.
- Gebruik noindex voor pagina's die niet in de index mogen maar wel gecrawld mogen worden.
- Verwijs altijd naar uw sitemap in robots.txt voor betere vindbaarheid.
- Net als het robots.txt-bestand op een Apache- of NGINX-hostingomgeving stuurt dit het gedrag van crawlers.
FAQ
Waar staat mijn robots.txt?
Op uw-domein.nl/robots.txt, beheerd via de SEO-instellingen in Webflow.
Wat is het verschil tussen robots.txt en noindex?
Robots.txt regelt crawlen; noindex regelt of een pagina in de index mag verschijnen.
Kan ik de hele site blokkeren?
Ja, met "Disallow: /", maar dat is zelden gewenst en houdt uw site uit de zoekresultaten.
Moet ik mijn sitemap erin zetten?
Het is aan te raden; het helpt zoekmachines uw sitemap te vinden.
Verschijnen wijzigingen direct?
Pas na publiceren van de site.
Samenvatting
Met robots.txt stuurt u welke delen van uw site zoekmachines mogen crawlen. Beheer het bestand via de SEO-instellingen in Webflow, wees voorzichtig met Disallow-regels, verwijs naar uw sitemap en publiceer. Controleer het resultaat via /robots.txt en Search Console.
Gerelateerde artikelen:
- Sitemap genereren in Webflow
- Canonical URLs instellen in Webflow
- Webflow koppelen aan Google Search Console
Komt u er niet uit? Dien een ticket in bij BDMNL, dan richten wij robots.txt veilig voor u in.
Was dit artikel nuttig?
Dat is fantastisch!
Hartelijk dank voor uw beoordeling
Sorry dat we u niet konden helpen
Hartelijk dank voor uw beoordeling
Feedback verzonden
We stellen uw moeite op prijs en zullen proberen het artikel te verbeteren