GNU/Linux >> Belajar Linux >  >> Linux

Daftar putih bot Google, Bing, Yahoo, Yandex, Baidu di csf dan mod_security

Keamanan &Firewall ConfigServer atau csf singkatnya adalah solusi firewall populer untuk server cPanel. Dikombinasikan dengan beberapa aturan yang bagus untuk mod_security, ini bekerja dengan baik.

Untuk mencegah csf memblokir sementara/permanen IP bot yang baik, Anda harus mengedit file /etc/csf/csf.rigore

###################### #####################################
# Hak Cipta 2006-2017, Way to the Web Limited
# URL:http://www.configserver.com
# Email:[email protected]
###################### #####################################
# Berikut adalah daftar domain dan sebagian domain yang diproses lfd
# pelacakan akan diabaikan berdasarkan pencarian DNS mundur dan maju. Contoh dari
# kegunaannya untuk mencegah web crawler diblokir oleh lfd, mis.
# .googlebot.com dan .crawl.yahoo.net
#
# Anda harus menggunakan Nama Domain yang Memenuhi Syarat Sepenuhnya (FQDN) atau akhiran yang unik
# subset dari nama domain yang harus dimulai dengan titik (wildcard BUKAN
# jika tidak diizinkan)
#
# Misalnya, berikut ini semua entri yang valid:
# www.configserver.com
# .configserver.com
# .configserver.co.uk
# .googlebot.com
# .crawl.yahoo.net
# .search.msn.com
#
# Berikut ini BUKAN entri yang valid:
# *.configserver.com
# *google.com
# google.com (kecuali pencariannya PERSIS google.com tanpa subdomain
#
# Ketika alamat IP kandidat diperiksa, pencarian DNS terbalik dilakukan pada
# alamat IP. Pencarian DNS maju kemudian dilakukan pada hasil dari
# pencarian DNS terbalik. Alamat IP hanya akan diabaikan jika:
#
#1. Hasil pencarian akhir sesuai dengan alamat IP asli
# DAN
# 2a. Hasil pencarian rDNS cocok dengan FQDN
# ATAU
# 2b. Hasil pencarian rDNS cocok dengan subset parsial domain
#
# Catatan:Jika pencarian DNS terlalu lambat atau tidak mengembalikan hasil yang diharapkan
# alamat IP akan dihitung sebagai pemicu pemblokiran seperti biasa
#

Tambahkan baris berikut ke /etc/csf/csf.rignore berkas:

.googlebot.com
.crawl.yahoo.net
.search.msn.com
.google.com
.yandex.ru
.yandex.net
.yandex.com
.crawl.baidu.com
.crawl.baidu.jp

csf memblokir IP ketika host diblokir beberapa kali oleh aturan mod_security. Jadi, kita harus mencari akar masalahnya – kita akan membuat aturan mod_security untuk mengizinkan bot yang bagus.
Untuk ini, kita akan mengedit file mod_security .conf. Jika Anda menggunakan cPanel EasyApache 4, tambahkan baris berikut ke file /etc/apache2/conf.d/modsec/ modsec2.user.conf

HostnameLookups On
SecRule REMOTE_HOST "@endsWith .googlebot.com" "allow,log,id:5000001,msg:'googlebot'"
SecRule REMOTE_HOST "@endsWith .google.com" "allow,log,id:5000002,msg:'googlebot'"
SecRule REMOTE_HOST "@endsWith .search.msn.com" "allow,log,id:5000003,msg:'msn bot'"
SecRule REMOTE_HOST "@endsWith .crawl.yahoo.net" "allow,log,id:5000004,msg:'yahoo bot'"
SecRule REMOTE_HOST "@endsWith .yandex.ru" "allow,log,id:5000005,msg:'yandex bot'"
SecRule REMOTE_HOST "@endsWith .yandex.net" "allow,log,id:5000006,msg:'yandex bot'"
SecRule REMOTE_HOST "@endsWith .yandex.com" "allow,log,id:5000007,msg:'yandex bot'"
SecRule REMOTE_HOST "@endsWith .crawl.baidu.com" "allow,log,id:5000008,msg:'baidu bot'"
SecRule REMOTE_HOST "@endsWith .crawl.baidu.jp" "allow,log,id:5000009,msg:'baidu bot'"

Setelah menambahkan baris ini, silakan restart Apache Web Server. Setelah beberapa waktu, Anda akan melihat entri di log server. Cukup buka WHM->Pusat Keamanan->Alat ModSecurity™->Daftar Hit atau dari baris perintah:

root@web [/]# grep "500000" /usr/local/apache/logs/error_log | tail -30

Sumber daya:
https://webmasters.googleblog.com/2006/09/how-to-verify-googlebot.html
https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.xml
https://www.bing.com/webmaster/help/how-to-verify-bingbot-3905dc26
https://github.com/SpiderLabs/ModSecurity/wiki/


Linux
  1. Cara Memasang dan Mengonfigurasi Firewall CSF di Linux

  2. Bash =~ Regex Dan Https://regex101.com/?

  3. Siapkan vhost Apache di Ubuntu 20.04 dan Debian 10

  1. Daftar putih IP di CSF untuk koneksi MySQL jarak jauh

  2. Cara Menginstal dan Mengkonfigurasi Kerberos di CentOS/RHEL 7

  3. curl:(6) Tidak dapat menyelesaikan host:google.com; Nama atau layanan tidak diketahui

  1. Daftar putih bot Google, Bing, Yahoo, Yandex, Baidu di csf dan mod_security

  2. cloudHQ – Sinkronkan Google Apps dan G Suite ke Akun Cloud Gratis

  3. Cara Menginstal dan Mengonfigurasi Firewall CSF di Debian 11