README.md aktualisiert

This commit is contained in:
2025-12-10 18:36:57 +01:00
parent e721f86d34
commit 6994af57ac

View File

@@ -8,6 +8,7 @@ Dieses Tool ermöglicht es, einzelne oder alle Shops auf einem Plesk-Server temp
-**Flexible Regionen**: DACH (DE, AT, CH) oder Eurozone+GB (22 Länder) -**Flexible Regionen**: DACH (DE, AT, CH) oder Eurozone+GB (22 Länder)
-**Bot-Rate-Limiting**: Bots unter Limit durchlassen, bei Überschreitung temporär bannen -**Bot-Rate-Limiting**: Bots unter Limit durchlassen, bei Überschreitung temporär bannen
-**Umfangreiche Bot-Erkennung**: 321 bekannte Bot-Patterns + 32 generische Fallback-Patterns
-**Präzises Blocking**: PHP prüft gegen vollständige IP-Ranges (keine Fehlblockierungen) -**Präzises Blocking**: PHP prüft gegen vollständige IP-Ranges (keine Fehlblockierungen)
-**Flexibler Modus**: 4 Modi - GeoIP+CrowdSec, GeoIP-only, Bot+CrowdSec, Bot-only -**Flexibler Modus**: 4 Modi - GeoIP+CrowdSec, GeoIP-only, Bot+CrowdSec, Bot-only
-**Doppelter Schutz**: PHP-Level + Firewall-Level (CrowdSec) - optional -**Doppelter Schutz**: PHP-Level + Firewall-Level (CrowdSec) - optional
@@ -139,16 +140,38 @@ httpdocs/
## 🤖 Erkannte Bot-Patterns ## 🤖 Erkannte Bot-Patterns
Das System erkennt über 30 verschiedene Bots: Das System erkennt **321 verschiedene Bots** in 12 Kategorien, plus **32 generische Fallback-Patterns** für unbekannte Bots.
| Kategorie | Bots | ### Bot-Kategorien
|-----------|------|
| **AI-Crawler** | GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-User, anthropic-ai, PerplexityBot | | Kategorie | Anzahl | Beispiele |
| **Suchmaschinen** | Googlebot, Google-Extended, AdsBot-Google, Bingbot, BingPreview, msnbot, DuckDuckBot, YandexBot, Baiduspider | |-----------|--------|-----------|
| **SEO-Tools** | AhrefsBot, SemrushBot, MJ12bot, DotBot, DataForSeoBot | | **AI/LLM Services** | 61 | ChatGPT-User, GPTBot, ClaudeBot, Anthropic, PerplexityBot, Gemini-Deep-Research, Google-NotebookLM, Cohere, MistralAI, DeepSeekBot, Bytespider, HuggingFace, Diffbot, BedrockBot, Firecrawl, Crawl4AI |
| **Social Media** | FacebookBot, LinkedInBot, Twitterbot, Slackbot | | **Suchmaschinen** | 36 | Googlebot, Googlebot-Image/Video/News, Google-Extended, Bingbot, BingPreview, MSNBot, Baiduspider, YandexBot, DuckDuckBot, Applebot, Yahoo Slurp, Sogou, NaverBot, BraveBot, QwantBot, PetalBot |
| **Andere** | Applebot, Amazonbot, Bytespider, PetalBot, UptimeRobot, Pingdom | | **SEO & Marketing** | 15 | AhrefsBot, SemrushBot, MJ12Bot, DotBot, RogerBot, Screaming Frog, BLEXBot, DataForSEOBot, Linkdex, SearchmetricsBot |
| **CLI-Tools** | curl, python-requests, Wget, Scrapy | | **Social Media** | 21 | FacebookBot, Meta-ExternalAgent, Twitterbot, Instagram, LinkedInBot, Pinterestbot, WhatsApp, TelegramBot, DiscordBot, Slackbot, RedditBot, Snapchat |
| **E-Commerce** | 15 | Amazonbot, Amazon-Kendra, AmazonBuyForMe, Shopify, Idealo, Billiger.de, Guenstiger.de, Ladenzeile, Kelkoo, PriceRunner, PriceGrabber |
| **Archiv & Research** | 6 | Archive.org Bot, Internet Archive, Wayback Machine, Heritrix, Apache Nutch, Common Crawl |
| **Monitoring & Uptime** | 9 | UptimeRobot, Pingdom, StatusCake, Site24x7, NewRelic, Datadog, GTmetrix, PageSpeed Insights, Chrome Lighthouse |
| **Download & Scraper** | 48 | HTTrack, Teleport Pro, WebCopier, SiteSucker, ScrapeBox, Xenu, Grabber, Harvest, Collector, WebZIP, BlackWidow |
| **HTTP Libraries** | 32 | Python-Requests, Python-urllib, cURL, Wget, Go-HTTP-Client, Axios, Node-Fetch, Scrapy, OkHttp, Guzzle, libwww-perl, Mechanize |
| **Security Scanner** | 11 | Nessus, SQLMap, Netsparker, Nikto, Acunetix, Burp Suite, OWASP ZAP, OpenVAS, Nmap, Masscan, WPScan |
| **Headless & Automation** | 7 | PhantomJS, Headless Chrome, Selenium, Puppeteer, Playwright, Cypress |
| **Feed Reader & RSS** | 5 | FeedFetcher, FeedParser, Feedly, Inoreader, NewsBlur |
| **Weitere Bots** | 55 | OmgiliBot, Webzio, Linguee, QuillBot, TurnitinBot, Brandwatch, Meltwater, BitlyBot, Mail.ru Bot, und viele mehr |
### Generische Fallback-Patterns
Falls ein Bot nicht in der spezifischen Liste ist, wird er trotzdem erkannt wenn sein User-Agent eines dieser Schlüsselwörter enthält:
```
bot, crawler, spider, scraper, fetch, scan, check, monitor, probe, index,
archive, capture, reader, download, mirror, ripper, collector, extractor,
siphon, copier, sucker, bandit, stripper, whacker, reaper, robot, agent,
seeker, finder, walker, roam, snagger
```
Diese werden dann als `Bot (crawler)`, `Bot (spider)`, etc. angezeigt.
## 📋 Voraussetzungen ## 📋 Voraussetzungen
@@ -203,7 +226,7 @@ Das war's! Das Script ist vollständig selbstverwaltend.
``` ```
============================================================ ============================================================
GeoIP Shop Blocker Manager v3.4.3 GeoIP Shop Blocker Manager v3.5.0
🇩🇪🇦🇹🇨🇭 DACH | 🇪🇺 Eurozone+GB | 🤖 Bot-Rate-Limiting 🇩🇪🇦🇹🇨🇭 DACH | 🇪🇺 Eurozone+GB | 🤖 Bot-Rate-Limiting
🛡️ Mit Cache-Validierung und Fail-Open 🛡️ Mit Cache-Validierung und Fail-Open
🚦 Bots unter Rate-Limit werden durchgelassen 🚦 Bots unter Rate-Limit werden durchgelassen
@@ -276,7 +299,7 @@ Region wählen [1/2]:
✅ 🤖 Bot-Only aktiviert ✅ 🤖 Bot-Only aktiviert
Shop: shop.example.com Shop: shop.example.com
Modus: Nur Bot-Rate-Limit 🤖 Modus: Nur Bot-Rate-Limit 🤖
🤖 32 Bot-Patterns aktiv 🤖 321 Bot-Patterns aktiv
🚦 Rate-Limit: 30 req/min, Ban: 5 min 🚦 Rate-Limit: 30 req/min, Ban: 5 min
Bots unter dem Limit werden durchgelassen Bots unter dem Limit werden durchgelassen
Gültig bis: 2025-12-12 19:30:00 CET Gültig bis: 2025-12-12 19:30:00 CET
@@ -293,21 +316,24 @@ Die Logs zeigen bei Bot-Only Modus auch die Rate-Limit Statistiken:
══════════════════════════════════════════════════════════════════════ ══════════════════════════════════════════════════════════════════════
⏱️ Laufzeit: 2h 15m ⏱️ Laufzeit: 2h 15m
📈 Log-Einträge: 1,234 (9.1 req/min) 📈 Log-Einträge: 1,234 (9.1 req/min)
🤖 Bot-Patterns: 32 aktiv 🤖 Bot-Patterns: 321 aktiv
🚦 Rate-Limit: 30 req/min, Ban: 5 min 🚦 Rate-Limit: 30 req/min, Ban: 5 min
🚫 Bans: 23 ausgelöst, 3 aktiv 🚫 Bans: 23 ausgelöst, 3 aktiv
🤖 Bot-Statistik: 🤖 Bot-Statistik:
Googlebot: 456x ███████████████████████████████████████ Googlebot: 456x ███████████████████████████████████████
Bingbot: 234x ███████████████████ Bingbot (Microsoft): 234x ███████████████████
GPTBot: 189x ███████████████ GPTBot (OpenAI): 189x ███████████████
AhrefsBot: 123x ██████████ AhrefsBot: 123x ██████████
Bytespider (TikTok/ByteDance): 98x ████████
ClaudeBot (Anthropic): 76x ██████
Amazonbot: 54x ████
... ...
📝 Letzte 30 Log-Einträge: 📝 Letzte 30 Log-Einträge:
[2025-12-09 19:45:23] BOT: Googlebot | IP: 66.249.66.1 | Count: 12/30 | URI: /produkt-123 [2025-12-09 19:45:23] BOT: Googlebot | IP: 66.249.66.1 | Count: 12/30 | URI: /produkt-123
[2025-12-09 19:45:24] BOT: Googlebot | IP: 66.249.66.1 | Count: 13/30 | URI: /kategorie-abc [2025-12-09 19:45:24] BOT: Googlebot | IP: 66.249.66.1 | Count: 13/30 | URI: /kategorie-abc
[2025-12-09 19:45:25] BANNED: GPTBot | IP: 20.15.240.64 | Exceeded 30 req/min | Ban: 5m | UA: ... [2025-12-09 19:45:25] BANNED: GPTBot (OpenAI) | IP: 20.15.240.64 | Exceeded 30 req/min | Ban: 5m | UA: ...
... ...
``` ```
@@ -318,7 +344,7 @@ Die Logs zeigen bei Bot-Only Modus auch die Rate-Limit Statistiken:
shop1.example.com [Link11] 🇩🇪🇦🇹🇨🇭 🛡️ shop1.example.com [Link11] 🇩🇪🇦🇹🇨🇭 🛡️
523 blocks, 1h 41m, Cache: ✅8,234 523 blocks, 1h 41m, Cache: ✅8,234
shop2.example.com [Direkt] 🤖 🤖 shop2.example.com [Direkt] 🤖 🤖
1,234 log entries, 2h 15m, 32 Bot-Patterns, 30 req/min, 3 aktive Bans 1,234 log entries, 2h 15m, 321 Bot-Patterns, 30 req/min, 3 aktive Bans
shop3.example.com [Direkt] 🇪🇺 📝 shop3.example.com [Direkt] 🇪🇺 📝
312 blocks, 1h 39m, Cache: ✅12,456 312 blocks, 1h 39m, Cache: ✅12,456
``` ```
@@ -476,7 +502,7 @@ In älteren Versionen wurden Bots sofort geblockt. Ab v3.4.3 werden Bots unter d
```bash ```bash
# Version prüfen # Version prüfen
grep "v3.4" geoip_shop_manager.py grep "v3." geoip_shop_manager.py
# Update durchführen # Update durchführen
wget -O geoip_shop_manager.py https://git.jtl-hosting.de/... wget -O geoip_shop_manager.py https://git.jtl-hosting.de/...
@@ -556,6 +582,19 @@ grep -oP '(BOT|BANNED): \K[^|]+' /var/www/vhosts/SHOP/httpdocs/geoip_blocked.log
## 📚 Changelog ## 📚 Changelog
### v3.5.0
- **NEU**: Erweiterte Bot-Erkennung mit **321 Bot-Patterns** (vorher ~35)
- **NEU**: 12 Bot-Kategorien: AI/LLM, Suchmaschinen, SEO, Social Media, E-Commerce, Archiv, Monitoring, Downloader, HTTP Libraries, Security Scanner, Automation, Feed Reader
- **NEU**: **32 generische Fallback-Patterns** für unbekannte Bots (bot, crawler, spider, etc.)
- **NEU**: Verbesserte Bot-Namen-Anzeige mit Kontext (z.B. "ClaudeBot (Anthropic)", "Bytespider (TikTok/ByteDance)")
- **NEU**: Amazon-Bots komplett: Amazonbot, Amazon-Kendra, AmazonBuyForMe, AMZNKAssocBot
- **NEU**: Alle wichtigen AI-Crawler: ChatGPT, Claude, Gemini, Perplexity, Cohere, Mistral, DeepSeek, etc.
- **NEU**: Deutsche Preisvergleiche: Idealo, Billiger.de, Guenstiger.de, Ladenzeile
- **NEU**: Security Scanner Erkennung: Nessus, SQLMap, Nikto, Burp Suite, OWASP ZAP, etc.
### v3.4.5
- **FIX**: Regex delimiter escape für curl pattern
### v3.4.3 ### v3.4.3
- **FIX**: Rate-Limit Logik korrigiert - Bots unter dem Limit werden jetzt durchgelassen - **FIX**: Rate-Limit Logik korrigiert - Bots unter dem Limit werden jetzt durchgelassen
- Vorher: Alle erkannten Bots wurden sofort mit 403 geblockt - Vorher: Alle erkannten Bots wurden sofort mit 403 geblockt
@@ -602,7 +641,8 @@ grep -oP '(BOT|BANNED): \K[^|]+' /var/www/vhosts/SHOP/httpdocs/geoip_blocked.log
--- ---
**Version**: 3.4.3 **Version**: 3.5.0
**Letztes Update**: Dezember 2025 **Letztes Update**: Dezember 2025
**Status**: Production Ready ✅ **Status**: Production Ready ✅
**Bot-Patterns**: 321 spezifisch + 32 generisch = 353 total
**Erlaubte Regionen**: 🇩🇪🇦🇹🇨🇭 DACH | 🇪🇺 Eurozone+GB | 🤖 Bot-Only (weltweit) **Erlaubte Regionen**: 🇩🇪🇦🇹🇨🇭 DACH | 🇪🇺 Eurozone+GB | 🤖 Bot-Only (weltweit)