Willkommen Gast. Bitte Einloggen oder Registrieren
 
Sprache wählen:
 
 
Statistik Version 4.9.15 online.

  ÜbersichtHilfeSuchenEinloggenRegistrieren  
 
Seitenindex umschalten Seiten: 1
Thema versenden Drucken
Bad Semalt-Crawler (Gelesen: 5593 mal)
Andreas
Full Member
***
Offline



Beiträge: 125
Unter Allgäu
Geschlecht: male
Bad Semalt-Crawler
12.09.14 um 13:06:17
 
Hallo
wer von euch hat in der letzten Zeit vermehrt Besuch vom Semalt-Crawler und was tust du dagegen. Für mich bedeutet Semalt einfach Guerilla-Marketing.


Keiner weiß im  Moment so richtig was Semalt (Standort Ukraine und USA) eigentlich im Schilde führt. Bisher verhält er sich noch ruhig und scheint noch harmlos zu sein. Anfangs waren die Zugriffe nur von Brasilien aus, aber z.Z. schlägt Semalt aus vielen anderen Länder aus zu und ändert dauernd seinen Domainnamen/ REFERER.
Alle bisher vorgeschlagene Tipps mittels .htaccess diesen Crawler völlig  auszusperren war bei mir bisher erfolglos.

Mittels stat sehe ich wie viele sonstige anderen Crawler auf meine Site zugreifen. Möchte eigentlich auch diese aussperren, aber mittels .htaccess ein hoffnungsloses Unterfangen!

Die wenigsten Bad-Crawler kommen aus deutschsprachigen Ländern. Meine User kommen zu 98 % aus de,at,ch

Frage: Würde es was bringen, wenn ich  alle nicht deutschsprachige Länder mittels php Browserweiche auszusperren. Natürlich müßte ich irgendwie aber Google erlauben meine Site zu spidern.

Für jede Hilfe wäre ich Dankbar.

Gruß
Andreas
Zum Seitenanfang
 

Gruß
Andreas
 
IP gespeichert
 
Reimar
Administrator
*****
Offline



Beiträge: 1893
Geschlecht: male
Re: Bad Semalt-Crawler
Antwort #1 - 13.09.14 um 21:28:04
 
Hallo Andreas,

diesem Thema habe ich auch schon recht viel Zeit gewidmet.
Es ist in der Tat nicht einfach etwas gegen Crawler zu tuen, zumal sie sich ja auch als normale Browser tarnen können.
Gerne helfe ich Dir weiter, allerdings glaube ich dass das Semalt-Problem scheinbar doch einfach zu lösen ist.
Oder ist der nachfolgende Link ein reiner Fake und Du hast es schon ausprobiert??
http://semalt.com/project_crawler.php
Denn es scheint so als wäre der Crawler ganz normal abzustellen, wenn man denen das mitteilt. Das machen viele solcher Crawler. Entweder mittels robots.txt oder als Opt-out-Formular.
Falls also mein obiger Tip nicht greift, sag nochmal Bescheid.
In der Zwischenzeit würde ich mal hier schauen:
http://perishablepress.com/ultimate-htaccess-blacklist/
Viele Grüße
Reimar
Zum Seitenanfang
 
 
IP gespeichert
 
Andreas
Full Member
***
Offline



Beiträge: 125
Unter Allgäu
Geschlecht: male
Re: Bad Semalt-Crawler
Antwort #2 - 15.09.14 um 00:18:04
 
Hallo Reimar,
viele im Netz warnen davor mit dem Formular und heiße Diskusionen sind darüber im Netz zu finden. Das mit dem robots.txt, wäre zu schön, das machen nur die guten Crawler.

Auch die Erkenntnise bei perishablepress.com habe ich schon lange durch.  Die ganzen Vorschläge habe ich bereits alle umgesetzt, bisher erfolglos!

Hier ist was interessantes: http://primweb.de/spam-von-semalt-com-kambasoft/
oder
http://primweb.de/spam-von-semalt-com-kambasoft/
oder

https://github.com/nabble/semalt-blocker

Das php Script von Nabbe habe ich noch nicht ausprobiert, ist mir auch zu kompliziert.

Nachtrag
----------------------------
In der Zwischenzeit schau ich genau hin wer meine Site aufruft.
Heute: Unterseite um 5:45:22  66.249.93.91 = google.com = OK
Heute: gleiche Unterseite um 5:45:24  199.46.97.31 = Clarksville Department Of Electricity = nicht OK

Anmerkung: Hatte gestern auch falsches Icon bei google.com erwähnt (ansatt US wurde Frankreich Icon dargestellt) War auch hier schon Manipulation im Spiel?

Am liebsten würde alle Zugriffe aus nicht deutschsprachige Länder verbieten und nur googlebot zulassen. Zwar keine absolute Garantie, aber die Anzahl der bösen Crawler wäre damit erheblich reduziert.

Wenn du mir hier weiter helfen könntest, wäre ich dir sehr dankbar.

Gruß
Andreas
Zum Seitenanfang
« Zuletzt geändert: 15.09.14 um 11:57:36 von Andreas »  

Gruß
Andreas
 
IP gespeichert
 
Reimar
Administrator
*****
Offline



Beiträge: 1893
Geschlecht: male
Re: Bad Semalt-Crawler
Antwort #3 - 15.09.14 um 16:29:51
 
Hallo Andreas,

gerne helfe ich Dir weiter, da mich das Thema auch interessant.
Allerdings habe ich noch keine perfekte Lösung im Kopf, die man mal soeben umsetzen kann. Denn in meinen Augen kann man nicht wirklich verhindern, dass jemand "Ungewolltes" eine Seite besucht. Denn jeder Besuch gibt 2 Dinge immer an: Browser und IP-Adresse. Die IP-Adresse kann man sich ja von jedem Land der Erde mittels Proxy etc. besorgen. D.h. eine Filterung danach ist nur teilweise möglich. Was den Browser angeht, so ist dies sehr ähnlich, hier kann man wirklich Beliebiges reinschreiben.
Selbst Google nutzt "unscheinbare" Kombinationen, also hidden crawler, um zu schauen, ob nicht SEO-Cloaking oder ähnliches eingesetzt wird.
Daher weiss ich noch nicht wirklich wie man das am Besten macht. Aber ich denke mal drüber nach. Vielleicht hast Du ja selbst auch ein paar Ideen? Wenn es wirklich richtig stört wer auf Deine Seiten geht, dann würde ja dann nur noch eine Art Captcha sinnvoll sein oder ?

Viele Grüße
Reimar
Zum Seitenanfang
 
 
IP gespeichert
 
Andreas
Full Member
***
Offline



Beiträge: 125
Unter Allgäu
Geschlecht: male
Re: Bad Semalt-Crawler
Antwort #4 - 15.09.14 um 22:33:28
 
Hallo Reimar,
im Gästebuch (MGB; zudem moderiert) oder Formmail erhalte ich so gut wie keinen Spam oder unliebsame Schnüffler.

Es ist die Hauptseite oder die Unterseiten die von Crawler aus allen Ländern (besonders Ukraine, Rußland, USA, GB usw) beschnüffelt werden.

Besucher meiner Site aus 100+X Länder brauche ich nicht, mir reichen die  EU Länder oder sogar nur aus de,at,ch,lu.

Sieh mal bitte hier, wäre das nicht umzustricken und zu Verwendbar?
http://forum.jswelt.de/allgemeines/59755-l-nderfilter.html

Gruß
Andreas
Zum Seitenanfang
 

Gruß
Andreas
 
IP gespeichert
 
Reimar
Administrator
*****
Offline



Beiträge: 1893
Geschlecht: male
Re: Bad Semalt-Crawler
Antwort #5 - 22.09.14 um 14:08:48
 
Hallo Andreas,

das Script aus Deinem Link kann man natürlich nutzen.
Das sollte kein grosses Problem sein.
Für mich stellt sich aber noch die Frage, wie denn eigentlich die wirklichen Rohdaten aussehen von diesem Semalt oder anderen unerwünschten Crawlern. Hast Du da Logfiles von Deinem Server, die Du mal hier posten oder zukommen lassen könntest. Denn selbst wenn Du ja die IP-Adressen ausser DE/AU/CH aussperrst, könnte ich mir vorstellen, dass gewisse Crawler schon so intelligent sind, auch deutsche IPs zu erhalten.
Neben Crawlern gibt es aber zumeist auch Botnetze, die durchs Internet laufen und nach Schwachstellen suchen. Und somit kommt man mit einer Ländersperre leider auch nicht weit. Schick mir doch mal bitte ein paar Logs zu von unerwünschten "Besuchern", dann kann man sich vielleicht gewisse Muster daraus ableiten?

Viele Grüße
Reimar
Zum Seitenanfang
 
 
IP gespeichert
 
Reimar
Administrator
*****
Offline



Beiträge: 1893
Geschlecht: male
Re: Bad Semalt-Crawler
Antwort #6 - 23.09.14 um 14:42:43
 
Hi Andreas,

ich habe jetzt mal die Logfiles bei uns angesehen und der Crawler scheint immer einen Referer auf semalt.com zu setzen.

Also würde eine Zeile wie diese hier :

Code (PHP):
if ( strpos ( strtolower ( $_SERVER [ "HTTP_REFERER" ] ) , "semalt" ) > 0 )
{ exit; } 



ihn direkt aussperren.

Gruß
Reimar
Zum Seitenanfang
 
 
IP gespeichert
 
Andreas
Full Member
***
Offline



Beiträge: 125
Unter Allgäu
Geschlecht: male
Re: Bad Semalt-Crawler
Antwort #7 - 24.09.14 um 20:02:39
 
Hallo reimar,
Danke für den Hinweis.

Semalt benützt jedesmal andere Referer:
http://xxxx.semalt.semalt.com (bei x schon bei 1987)
semalt.semalt.com
x.semalt.semalt.com/ und danach auch meine URL.

Wollte dir hier meine .htaccess zusenden aber zu groß für hier abzubilden.
Zudem jede Menge  von anderen Schnüfflern.
Habe dir dazu eine PN hinterlassen.

Reimar, hat sich da nicht ein Fehler eingeschlichen und müßte es so sein (ohne >)?

if ( strpos ( strtolower ( $_SERVER [ "HTTP_REFERER" ] ) , "semalt" )  0 )
{ exit; }
Zum Seitenanfang
« Zuletzt geändert: 25.09.14 um 03:29:04 von Andreas »  

Gruß
Andreas
 
IP gespeichert
 
Reimar
Administrator
*****
Offline



Beiträge: 1893
Geschlecht: male
Re: Bad Semalt-Crawler
Antwort #8 - 25.10.14 um 21:36:55
 
Hallo Andreas,
hast Du den Code denn mal laufen lassen?
Denn der müsste den Kollegen semalt ja abhalten.
Der Code ist korrekt, das Größerzeichen muss dorthin.
Gruß
Reimar
Zum Seitenanfang
 
 
IP gespeichert
 
Seitenindex umschalten Seiten: 1
Thema versenden Drucken