Training des Spamfilters

Spaminhalte verändern sich fortlaufend. Während bei regelbasierten Filtern analog zu Virenfiltern die Regeln von Hand angepasst werden müssen, können sich statistische Filter selbst adaptieren. Voraussetzung hierfür ist allerdings regelmässiges Training mit manuell klassifizierten Spam- und Ham-Mails. Dieses Training wird durch die Administratoren des DFN-MailSupport-Dienstes durchgeführt, interessierte Postmaster möchten wir aber ermutigen, daran teilzunehmen. Bitte kontaktieren Sie die Hotline, um die Trainingsadressen für Ihre Einrichtung konfigurieren zu lassen.

1. Begriffe

Zunächst einige grundlegende Begriffsdefinitionen:

Spam bezeichnet unverlangte Massen/Werbe-E-Mails. Der Begriff leitet sich von britischem Dosenfleisch ab, das um die Zeit des 2. Weltkriegs immer noch in ausreichender Menge verfügbar war.

Ham ist das Gegenteil von Spam und bezeichnet echte, erwünschte E-Mails, die im Englischen als "guter" Schinken bezeichnet werden.

Phishing bezeichnet betrügerische Versuche, an vertrauliche Informationen wie Zugangsdaten, Einmalcodes oder Zahlungsdaten zu gelangen. Der Begriff leitet sich vom englischen „fishing“ (Angeln) ab. Angreifer nutzen dazu täuschend echte E-Mails, Webseiten oder Nachrichten, die legitime Dienste imitieren. Häufig enthalten solche Nachrichten Links zu gefälschten Loginseiten oder fordern direkt zur Eingabe sensibler Daten auf. Neben E-Mail kommen heute auch SMS („Smishing“), Telefonanrufe („Vishing“) oder gezielte Angriffe auf einzelne Personen („Spear Phishing“) zum Einsatz. Moderne Phishing-Nachrichten sind oft schwer zu erkennen und stellen eine zentrale Herausforderung für IT-Sicherheit und Schulungen dar.

Malware (von „malicious software“) ist ein Sammelbegriff für schädliche Programme, die dazu dienen, Systeme zu kompromittieren, Daten zu stehlen oder missbräuchlich zu nutzen. Dazu zählen unter anderem Trojaner, Ransomware, Spyware und sogenannte Infostealer.
Die Verbreitung erfolgt häufig über E-Mail, etwa durch schädliche Anhänge (z. B. Office-Dokumente, Archive) oder Links zu infizierten Webseiten. In der Regel ist eine Aktion des Nutzers erforderlich, etwa das Öffnen eines Anhangs oder das Ausführen einer Datei.
Moderne Malware kann vielfältige Ziele verfolgen, etwa das Ausspähen von Zugangsdaten, das Verschlüsseln von Daten zur Erpressung oder die Einbindung des Systems in ein Botnetz.

False positives sind Ham-Mails, die fälschlich als Spam erkannt, markiert und in den Werbeordner abgelegt wurden. Diese Mails müssen ins Hamtraining geschickt werden.

False negatives sind Spam-Mails, die von den Filtern nicht erkannt und markiert wurden. Diese müssen in das Spamtraining bzw. an die Mailsupport-Hotline geschickt werden.

Newsletter sind durch ihre Form von Spam nur schwer zu unterscheiden. Man unterscheidet erwünschte und unerwünschte Newsletter. Bei unerwünschten Newslettern soll der Mitarbeiter in den Fällen, in denen sie selbst aktiv abonniert wurden, auf eben diesem Wege auch wieder abbestellt werden. Erst wenn dies fehlschlägt, sollten der Newsletter ins Spamtraining geschickt werden. Werden hingegen erwünschte Newsletter von den Filtern als Spam eingestuft, so sollten diese in das Newslettertraining geschickt werden.

Spamtraining Hiermit wird dem Filter mitgeteilt, dass der Inhalt der übergebenen Mail zukünftig als Spam einzustufen ist. Die E-Mails werden automatisiert verarbeitet. Nur in einzelnen Fällen werden diese Mails von den Mailsupport-Admins gesichtet.

Hamtraining Hiermit wird dem Filter mitgeteilt, dass der Inhalt der übergebenen Mail zukünftig als Ham einzustufen ist. Die E-Mails werden automatisiert verarbeitet. Nur in einzelnen Fällen werden diese Mails von den Mailsupport-Administratoren gesichtet.

Newslettertraining Hiermit wird dem Filter mitgeteilt, dass diese Mail als zukünftig als erwünschter Newsletter einzustufen ist. Das Training erfolgt wegen der Komplexität von Hand durch die Mailsupport-Admins.

Phishingtraining hier können nicht erkannte Phishing Mails abgeliefert werden. Diese werden analysiert um daraus Blocklisten und Regeln zu entwickeln.

2. Filtertypen

Im DFN-MailSupport-Dienst werden zwei verschiedene Bayesfilter eingesetzt:

  1. ein zentraler Filter basierend auf dem Programm bogofilter
  2. alternativ pro Instanz der im SpamAssassin eingebaute Bayesfilter sa-bayes

Die gefilterten Mails werden von beiden Filtern in Klassen eingeteilt,
hier folgt eine Gegenüberstellung:

bogofiltersa-bayesEinschätzung
BOGO_SPAMBAYES_999extrasicher Spam
-BAYES_99sicher Spam
-BAYES_95sicher Spam
-BAYES_80fast sicher Spam
-BAYES_60eher Spam
BOGO_UNSUREBAYES_50keine Aussage möglich
-BAYES_40eher Ham
-BAYES_20fast sicher Ham
-BAYES_05sicher Ham
BOGO_HAMBAYES_00sicher HAM

~

Die Klassen werden mit Scores versehen und gehen zusammen mit
den regelbasierten Scores in die Gesamtbewertung ein. Hier sind
die im DFN-MailSupport verwendeten Basiswerte:

bogofilter   sa-bayes  
BOGO_SPAM 3.0 BAYES_999 0.9
- - BAYES_99 7.0
- - BAYES_95 6.0
- - BAYES_80 4.0
- - BAYES_60 2.2
BOGO_UNSURE 0.1 BAYES_50 0.1
- - BAYES_40 -0.5
- - BAYES_20 -1.0
- - BAYES_05 -2.5
BOGO_HAM -2.0 BAYES_00 -3.9

3. Vorgehensweise

In der Regel wird man solche Mails dem Training übergeben, die vom Spamfilter falsch klassifiziert worden sind. Da wir sowohl einen regelbasierten als auch einen statistischen Filter einsetzen, muss man anhand der eingefügten Header zuerst entscheiden, von welcher Komponente die falsche Klassifikation durchgeführt wurde. Falsche Einschätzungen des regelbasierten Filters können nur eingeschränkt vom statistischen Filter aufgefangen werden und müssen mit unserer Hotline geklärt werden.

3.1. manuelle Klassifikation der zu trainierenden Mail

Die von den Bayesfiltern getroffene Klassifikation findet man im Header
X-Spam-Status. In ihm taucht immer eines der folgenden Checkresultate auf:

Folgende Fälle sind nun Kandidaten für das Training:

Resultat in X-Spam-Status: BOGO_SPAM, BAYES_(999,99,95,80,60)BOGO_UNSURE, BAYES_50BOGO_HAM, BAYES_(40,20,05,00)
Die Mail ist Spam, wurde aber nicht erkannt:-ss
Die Mail ist kein Spam, wurde aber als Spam markiert:hh-

Hierbei bedeutet:

s Spam-Training
h Ham-Training
- kein Training möglich, Fall für die Hotline

Die Newsletter-Whitelist schließlich kann ebenfalls dafür sorgen, dass Spam nicht markiert wird, auch wenn alle Filter anschlagen. Einen solchen Fall erkennt man daran, dass der Spam-Score um die -90 Punkte liegt, da die Whitelist pauschal -100 Punkte auf den Score addiert.

3.2. Training

Pro Einrichtung werden auf Wunsch vier Mailadressen eingerichtet, eine für das Spam-Training, eine für das Hamtraining, eine für das Phishingtraining und eine für die Newsletter-Whitelist.

Das Training erfolgt, indem die zu trainierende Mail an die passende Adresse versendet wird. Hier ist zu beachten, dass möglichst die vollständigen Original-Header mitkommen, da diese in die Bewertung mit eingehen. Diese Funktion heißt in den verschiedenen Mailprogrammen meist weiterleiten als Anhang oder als Anlage weiterleiten. Es werden alle Mails im Anhang verarbeitet.

Wenn sie also Interesse daran haben aktiv an der Verbesserung unserer Filter mitzuwirken, melden Sie sich bei der Hotline und wir richten das Training für Sie ein.