# Hellion Initiative - robots.txt # https://hellion-initiative.de # Erstellt am: 10. Oktober 2025 # Basierend auf: Cloudflare AI Bot List + Custom Rules # ============================================ # ERLAUBTE BOTS (Standard-Zugriff) # ============================================ # ───────────────────────────────────────────── # SUCH MASCHINEN (High Priority) # ───────────────────────────────────────────── # Google Search User-agent: Googlebot Allow: / User-agent: Googlebot-Image Allow: / User-agent: Googlebot-News Allow: / User-agent: GoogleOther Allow: / # Bing Search User-agent: Bingbot Allow: / # Yandex Search User-agent: Yandex Allow: / # Baidu Search User-agent: Baiduspider Allow: / # DuckDuckGo Search User-agent: DuckDuckBot Allow: / # Seznam Search (Czech Republic) User-agent: SeznamBot Allow: / # Naver Search (Korea) User-agent: Yeti Allow: / # Cốc Cốc Search (Vietnam) User-agent: coccocbot Allow: / # Sogou Search (China) User-agent: Sogou Allow: / # Yahoo Search User-agent: Yahoo! Slurp Allow: / # ───────────────────────────────────────────── # CLAUDE AI (Anthropic) - Entwicklungs-Assistenz # ───────────────────────────────────────────── User-agent: ClaudeBot Allow: / User-agent: Claude-SearchBot Allow: / User-agent: Claude-User Allow: / User-agent: anthropic-ai Allow: / User-agent: Claude-Web Allow: / # ───────────────────────────────────────────── # ARCHIVIERUNG & SOCIAL MEDIA # ───────────────────────────────────────────── # Internet Archive (Wayback Machine) User-agent: archive.org_bot Allow: / # Social Media Crawler (für Open Graph / Link Previews) User-agent: Twitterbot Allow: / User-agent: facebookexternalhit Allow: / # ───────────────────────────────────────────── # SEO-CRAWLER (mit Crawl-Delay für Performance) # ───────────────────────────────────────────── User-agent: SemrushBot Crawl-delay: 10 Allow: / User-agent: AhrefsBot Crawl-delay: 10 Allow: / User-agent: MJ12bot Crawl-delay: 10 Allow: / # ============================================ # BLOCKIERTE AI CRAWLER & TRAINING BOTS # (Basierend auf Cloudflare Managed robots.txt) # ============================================ # ───────────────────────────────────────────── # OPENAI (ChatGPT & GPT-4) # ───────────────────────────────────────────── User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: / User-agent: OAI-SearchBot Disallow: / # ───────────────────────────────────────────── # META / FACEBOOK AI # ───────────────────────────────────────────── User-agent: FacebookBot Disallow: / User-agent: Meta-ExternalAgent Disallow: / User-agent: Meta-ExternalFetcher Disallow: / User-agent: meta-externalagent Disallow: / # ───────────────────────────────────────────── # GOOGLE AI TRAINING (nicht Google Search!) # ───────────────────────────────────────────── User-agent: Google-Extended Disallow: / User-agent: Google-CloudVertexBot Disallow: / # ───────────────────────────────────────────── # PERPLEXITY AI # ───────────────────────────────────────────── User-agent: PerplexityBot Disallow: / User-agent: Perplexity-User Disallow: / # ───────────────────────────────────────────── # APPLE AI # ───────────────────────────────────────────── User-agent: Applebot Disallow: / User-agent: Applebot-Extended Disallow: / # ───────────────────────────────────────────── # AMAZON AI # ───────────────────────────────────────────── User-agent: Amazonbot Disallow: / # ───────────────────────────────────────────── # BYTEDANCE (TikTok AI) # ───────────────────────────────────────────── User-agent: Bytespider Disallow: / # ───────────────────────────────────────────── # COMMON CRAWL (AI Training Dataset) # ───────────────────────────────────────────── User-agent: CCBot Disallow: / # ───────────────────────────────────────────── # ANDERE AI CRAWLER # ───────────────────────────────────────────── User-agent: PetalBot Disallow: / User-agent: Anchor Browser Disallow: / User-agent: DuckAssistBot Disallow: / User-agent: MistralAI-User Disallow: / User-agent: Novellum AI Crawl Disallow: / User-agent: ProRataInc Disallow: / User-agent: Timpibot Disallow: / User-agent: Omgilibot Disallow: / User-agent: FriendlyCrawler Disallow: / # ───────────────────────────────────────────── # AGGRESSIVE / BAD CRAWLERS # ───────────────────────────────────────────── User-agent: SiteAuditBot Disallow: / User-agent: MegaIndex Disallow: / # ============================================ # STANDARD-REGEL für alle anderen Bots # ============================================ User-agent: * Allow: / # SEO-optimierte Bereiche (explizit erlaubt) Allow: /abteilungen/ Allow: /api/v2/public/ # Geschützte Bereiche (via Middleware geschützt) Disallow: /intern/ Disallow: /api/auth/ Disallow: /api/v2/admin/ Disallow: /api/v2/department/ Disallow: /api/v2/member/ Disallow: /api/v2/user/ # System-Dateien ausschließen Disallow: /_next/ Disallow: /api/ Disallow: /*.json Disallow: /*.xml # Crawl-Delay für bessere Performance Crawl-delay: 1 # Sitemap-Verweis Sitemap: https://hellion-initiative.de/sitemap.xml