Rechen Captcha zu OCR freundlich...

Hier werden Probleme rund um das Rechen Captcha behandelt

Moderator: frameguard

Rechen Captcha zu OCR freundlich...

Beitragvon Cacodaemon » 08.08.2008, 15:51

Hi,

habe mir das Rechen Captcha mal angeschaut und so wie es ist, ist es leider zu leicht durch ein OCR Programm zu lesen.

BSP

Ich verwende das Open Source OCR Programm GORC, welches nicht das beste OCR Programm ist.

Um nun GOCR zu trainieren habe ich das Captcha Script so "angepasst" das es mir alle möglichen Zeichen ausgibt:
Code: Alles auswählen
imagestring($img, 3, 2, 0, "0123456789+-=?", $schriftfarbe);

So sieht die Ausgabe dann aus:
Bild
Rufen wir nun GOCR mit den Captcha Bild auf ohne es trainiert zu haben:
Code: Alles auswählen
user@localhost ~ $ gocr rc.png
g2345678g+-=?

Bis auf das die 0 und die 9 als g interpretiert werden und die 1 verschwindet schon mal nicht schlecht.

Sagen wir GOCR nun welche möglichen Zeichen vorkommen können sieht das noch was besser aus:
Code: Alles auswählen
user@localhost ~ $ gocr -C "0123456789+-=?" rc.png
823456789+=?


Mit den Parameter -m 130 trainieren wir GOCR nun noch:
Bild

Nach dem Training sieht die Ausgabe schon was besser aus:
Code: Alles auswählen
user@localhost ~ $ gocr -m 130 -C "0123456789+-=?" rc.png
0123456789+=?

Nun wird zwar das Minus verschluckt aber wie gesagt GOCR ist nicht mit einen Kommerziellen OCR Programm vergleichbar und mit etwas mehr zeit ist das Problem bestimmt auch mit GOCR lösbar, zumal das Minus vor dem Training richtig erkannt wurde.
Aber wenn man mal was Beispielbild aus dem Tutorial nimmt klappt das auch so ;) :

Code: Alles auswählen
user@localhost ~ $ gocr -m 130 -C "012345678-9+=?" rechen-captcha.png
18+2=?


Und nun diese Zeichenkette auszurechnen ist nicht mehr schwer... .

Das Problem ist einfach das die Schriftart die in diesem Captcha verwendet wird viel zu einfach von einem OCR Programm lesbar ist,
würde man wie im anderen Tutorial eine schwer lesabre TTF Schrift verwenden sähe das schon ganz anders aus, es würde auch nicht viel bringen anstatt "1+2=?" "eins plus zwei gleich ?" auszugeben dieses Problem ist mit einem kleinen Script auch schnell gelöst... .

Auf diese weise kann man natürlich auch testen ob eine Schriftart im Captcha relativ einfach zu knacken ist oder nicht...

Cu

Caco
Cacodaemon
 
Beiträge: 1
Registriert: 07.08.2008, 21:53

Beitragvon Rob [Admin] » 12.08.2008, 10:32

Ja die Spamer schlafen natürlich nicht. Und man kann mitlerweilen fast jedes Captcha knacken, so rein theoretisch.

Anfangs war die Idee, das es ein Rechencaptcha nicht oft gab. Zum Zweiten kommt dazu, dass man, wie du das auch musstest, das Programm trainieren muss. Und für einen Spammer ist es ja sinnvoller, eine Methode zu finden, um möglichst viele Cpatchas zu umgehen. Wie zum Beispiel die Captchas von Foren (WBB, phpBB, etc.) oder Blogs, wo die Spam Meldungen auch angezeigt werden, zu knacken.

Für Spamer ist es nicht sonderlich interessant, Aufwand zu betreiben, wenn nur ein Kontaktformular abgeschickt wird. Daher würde ich folgendes sagen, für Gästebücher und wichtige Sachen nimmt man ein "sicheres" Captcha, wie unser Zahlencaptcha. Und wer einfach sein Kontatformular vor ein wenig Spam schützen will und auch eine benutzerfreundliche und lesbare Version möchte, nutzt das Rechencaptcha.

Letzlich ist man als Webmaster schon froh, wenn sich der SPAM eindämt. Auch bei mir kommt täglich SPAM ins Emailpostfach, wird aber als SPAM gekenntzeichnet und in einen SPAM Ordner verschoben und dann gelöscht.
Rob [Admin]
Site Admin
 
Beiträge: 143
Registriert: 23.12.2006, 12:27


Zurück zu Rechen Captcha

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

cron