Training des Spamfilters

Spaminhalte verändern sich fortlaufend. Während bei regelbasierten Filtern analog zu Virenfiltern die Regeln von Hand angepasst werden müssen, können sich statistische Filter selbst adaptieren. Voraussetzung hierfür ist allerdings regelmässiges Training mit manuell klassifizierten Spam- und Ham-Mails. Dieses Training wird durch die Administratoren des DFN-MailSupport-Dienstes durchgeführt, interessierte Postmaster möchten wir aber ermutigen, daran teilzunehmen. Bitte kontaktieren Sie die Hotline, um die Trainingsadressen für Ihre Einrichtung konfigurieren zu lassen.

1. Begriffe

Zunächst einige grundlegende Begriffsdefinitionen:

Spam bezeichnet unverlangte Massen/Werbe-E-Mails. Der Begriff leitet sich von britischem Dosenfleisch ab, das um die Zeit des 2. Weltkriegs immer noch in ausreichender Menge verfügbar war.

Ham ist das Gegenteil von Spam und bezeichnet echte, erwünschte E-Mails, die im Englischen als "guter" Schinken bezeichnet werden.

False positives sind Ham-Mails, die fälschlich als Spam erkannt, markiert und in den Werbeordner abgelegt wurden. Diese Mails müssen ins Hamtraining geschickt werden.

False negatives sind Spam-Mails, die von den Filtern nicht erkannt und markiert wurden. Diese müssen in das Spamtraining baw. an die Mailsupportgeschickt werden.

Newsletter sind durch ihre Form von Spam nur schwer zu unterscheiden. Man unterscheidet erwünschte und unerwünschte Newsletter. Bei unerwünschten Newslettern soll der Mitarbeiter in den Fällen, in denen sie selbst aktiv abonniert wurden, auf eben diesem Wege auch wieder abbestellt werden. Erst wenn dies fehlschlägt, sollten der Newsletter ins Spamtraining geschickt werden. Werden hingegen erwünschte Newsletter von den Filtern als Spam eingestuft, so sollten diese in das Newslettertraining geschickt werden.

Spamtraining Hiermit wird dem Filter mitgeteilt, dass der Inhalt der übergebenen Mail zukünftig als Spam einzustufen ist. Die E-Mails werden automatisiert verarbeitet. Nur in einzelnen Fällen werden diese Mails von den Mailsupport-Admins gesichtet.

Hamtraining Hiermit wird dem Filter mitgeteilt, dass der Inhalt der übergebenen Mail zukünftig als Ham einzustufen ist. Die E-Mails werden automatisiert verarbeitet. Nur in einzelnen Fällen werden diese Mails von den Mailsupport-Administratoren gesichtet.

Newslettertraining Hiermit wird dem Filter mitgeteilt, dass diese Mail als zukünftig als erwünschter Newsletter einzustufen ist. Das Training erfolgt wegen der Komplexität von Hand durch die Mailsupport-Admins.

Phishing Ist abgeleitet vom englischen "password fishing", also dem Angeln nach Passwörtern. Hiermit werden Versuche bezeichnet, den Mailempfängern in böswilliger Absicht Zugangsdaten zu allen möglichen Accounts (Mail, Intranet, Clouddienste) zu entlocken. Dies geschieht in vielfältiger Weise: Mails enthalten nachgebauten Loginseiten der Einrichtungen im HTML-Anhang oder Links auf entsprechende externe Webseiten. Oder es wird direkt im Mailtext nach dem Passwort gefragt. Solche Mails sind in der Regel nicht von Ham-Mails zu unterscheiden und daher nicht für das Spamtraining geeignet.

Malware Ist abgeleitet vom englischen "mal software", also schlechter oder böser Software. In der Regel wird hier versucht, eine Fernsteuersoftware auf dem PC des Nutzers zu installieren, auch Trojaner oder Bot genannt. Über diese werden dann Daten gestohlen und der PC für weitere Angriffe oder das Versenden von Spam/Phising/Malware mißbraucht. Auch hier bietet Email ein Vielzahl von Möglichkeiten: Programmcode direkt als Anhang, Javascript in HTML-Anhängen oder PDF-Anhängen, Makros in Office-Dokumenten, Links im Text auf Webseiten, die automatisch Schadcode herunterladen. Malware wird meistens mit Virenscannern erkannt, seltener mit Regeln innerhalb der Spamfilter. Solche Mails sind in der Regel nicht von Ham-Mails zu unterscheiden und daher nicht für das Spamtraining geeignet.

Phishing- und Malwaretraining kann nicht automatisiert erfolgen, solche EMails müssen direkt an die Mailsupport-Hotline weitergeleitet werden.

2. Filtertypen

Im DFN-MailSupport-Dienst werden zwei verschiedene Bayesfilter eingesetzt:

  1. ein zentraler Filter basierend auf dem Programm bogofilter
  2. alternativ pro Instanz der im SpamAssassin eingebaute Bayesfilter sa-bayes

Die gefilterten Mails werden von beiden Filtern in Klassen eingeteilt,
hier folgt eine Gegenüberstellung:

bogofiltersa-bayesEinschätzung
BOGO_SPAMBAYES_999extrasicher Spam
-BAYES_99sicher Spam
-BAYES_95sicher Spam
-BAYES_80fast sicher Spam
-BAYES_60eher Spam
BOGO_UNSUREBAYES_50keine Aussage möglich
-BAYES_40eher Ham
-BAYES_20fast sicher Ham
-BAYES_05sicher Ham
BOGO_HAMBAYES_00sicher HAM

~

Die Klassen werden mit Scores versehen und gehen zusammen mit
den regelbasierten Scores in die Gesamtbewertung ein. Hier sind
die im DFN-MailSupport verwendeten Basiswerte:

bogofiltersa-bayes
BOGO_SPAM7.0BAYES_9996.5
--BAYES_996.3
--BAYES_954.9
--BAYES_803.0
--BAYES_602.11
BOGO_UNSURE-0.01BAYES_500.8
--BAYES_40-0.001
--BAYES_20-0.001
--BAYES_05-0.5
BOGO_HAM-9BAYES_00-1.9

3. Vorgehensweise

In der Regel wird man solche Mails dem Training übergeben, die vom Spamfilter falsch klassifiziert worden sind. Da wir sowohl einen regelbasierten als auch einen statistischen Filter einsetzen, muss man anhand der eingefügten Header zuerst entscheiden, von welcher Komponente die falsche Klassifikation durchgeführt wurde. Falsche Einschätzungen des regelbasierten Filters können nur eingeschränkt vom statistischen Filter aufgefangen werden und müssen mit unserer Hotline geklärt werden.

3.1. manuelle Klassifikation der zu trainierenden Mail

Die von den Bayesfiltern getroffene Klassifikation findet man im Header
X-Spam-Status. In ihm taucht immer eines der folgenden Checkresultate auf:

  • BOGO_SPAM, BOGO_UNSURE, BOGO_HAM
  • BAYES_99, ... .BAYES_00

Folgende Fälle sind nun Kandidaten für das Training:

Resultat in X-Spam-Status: BOGO_SPAM, BAYES_(999,99,95,80,60)BOGO_UNSURE, BAYES_50BOGO_HAM, BAYES_(40,20,05,00)
Die Mail ist Spam, wurde aber nicht erkannt:-ss
Die Mail ist kein Spam, wurde aber als Spam markiert:hh-

Hierbei bedeutet:

s Spam-Training
h Ham-Training
- kein Training möglich, Fall für die Hotline

Die Newsletter-Whitelist schließlich kann ebenfalls dafür sorgen, dass Spam nicht markiert wird, auch wenn alle Filter anschlagen. Einen solchen Fall erkennt man daran, dass der Spam-Score um die -90 Punkte liegt, da die Whitelist pauschal -100 Punkte auf den Score addiert.

3.2. Training

Pro Einrichtung werden auf Wunsch drei Mailadressen eingerichtet, eine für das Spam-Training, eine für das Hamtraining und eine für die Newsletter-Whitelist. Das Training erfolgt, indem die zu trainierende Mail an die passende Adresse versendet wird. Hier ist zu beachten, dass möglichst die vollständigen Original-Header mitkommen, da diese in die Bewertung mit eingehen. Diese Funktion heißt in den verschiedenen Mailprogrammen meist weiterleiten als Anhang oder als Anlage weiterleiten. Beim Weiterleiten der Mail dürfen sie keine zusätzlichen Texte mitgeben, auch keinen Signaturtext oder ähnliches, da dies in die Bewertung mit eingehen würde.