Training des Spamfilters

Spaminhalte verändern sich fortlaufend. Während bei regelbasierten Filtern analog zu Virenfiltern die Regeln von Hand angepasst werden müssen, können sich statistische Filter selbst adaptieren. Voraussetzung hierfür ist allerdings regelmässiges Training mit manuell klassifizierten Spam- und Ham-Mails. Dieses Training wird durch die Administratoren des DFN-MailSupport-Dienstes durchgeführt, interessierte Postmaster möchten wir aber ermutigen, daran teilzunehmen. Bitte kontaktieren Sie die Hotline, um die Trainingsadressen für Ihre Einrichtung konfigurieren zu lassen.

1. Filtertypen

Im DFN-MailSupport-Dienst werden zwei verschiedene Bayesfilter eingesetzt:

  1. ein zentraler Filter basierend auf dem Programm bogofilter
  2. alternativ pro Instanz der im SpamAssassin eingebaute Bayesfilter sa-bayes

Die gefilterten Mails werden von beiden Filtern in Klassen eingeteilt,
hier folgt eine Gegenüberstellung:

bogofiltersa-bayesEinschätzung
BOGO_SPAMBAYES_999extrasicher Spam
-BAYES_99sicher Spam
-BAYES_95sicher Spam
-BAYES_80fast sicher Spam
-BAYES_60eher Spam
BOGO_UNSUREBAYES_50keine Aussage möglich
-BAYES_40eher Ham
-BAYES_20fast sicher Ham
-BAYES_05sicher Ham
BOGO_HAMBAYES_00sicher HAM

~

Die Klassen werden mit Scores versehen und gehen zusammen mit
den regelbasierten Scores in die Gesamtbewertung ein. Hier sind
die im DFN-MailSupport verwendeten Basiswerte:

bogofiltersa-bayes
BOGO_SPAM7.0BAYES_9996.5
--BAYES_996.3
--BAYES_954.9
--BAYES_803.0
--BAYES_602.11
BOGO_UNSURE-0.01BAYES_500.8
--BAYES_40-0.001
--BAYES_20-0.001
--BAYES_05-0.5
BOGO_HAM-9BAYES_00-1.9

2. Vorgehensweise

In der Regel wird man solche Mails dem Training übergeben, die vom Spamfilter falsch klassifiziert worden sind. Da wir sowohl einen regelbasierten als auch einen statistischen Filter einsetzen, muss man anhand der eingefügten Header zuerst entscheiden, von welcher Komponente die falsche Klassifikation durchgeführt wurde. Falsche Einschätzungen des regelbasierten Filters können nur eingeschränkt vom statistischen Filter aufgefangen werden und müssen mit unserer Hotline geklärt werden.

2.1. manuelle Klassifikation der zu trainierenden Mail

Die von den Bayesfiltern getroffene Klassifikation findet man im Header
X-Spam-Status. In ihm taucht immer eines der folgenden Checkresultate auf:

  • BOGO_SPAM, BOGO_UNSURE, BOGO_HAM
  • BAYES_99, ... .BAYES_00

Folgende Fälle sind nun Kandidaten für das Training:

Resultat in X-Spam-Status: BOGO_SPAM, BAYES_(999,99,95,80,60)BOGO_UNSURE, BAYES_50BOGO_HAM, BAYES_(40,20,05,00)
Die Mail ist Spam, wurde aber nicht erkannt:-ss
Die Mail ist kein Spam, wurde aber als Spam markiert:hh-

Hierbei bedeutet:

s Spam-Training
h Ham-Training
- kein Training möglich, Fall für die Hotline

Die Newsletter-Whitelist schließlich kann ebenfalls dafür sorgen, dass Spam nicht markiert wird, auch wenn alle Filter anschlagen. Einen solchen Fall erkennt man daran, dass der Spam-Score um die -90 Punkte liegt, da die Whitelist pauschal -100 Punkte auf den Score addiert.

2.2. Training

Pro Einrichtung werden auf Wunsch drei Mailadressen eingerichtet, eine für das Spam-Training, eine für das Hamtraining und eine für die Newsletter-Whitelist. Das Training erfolgt, indem die zu trainierende Mail an die passende Adresse versendet wird. Hier ist zu beachten, dass möglichst die vollständigen Original-Header mitkommen, da diese in die Bewertung mit eingehen. Diese Funktion heißt in den verschiedenen Mailprogrammen meist weiterleiten als Anhang oder als Anlage weiterleiten. Beim Weiterleiten der Mail dürfen sie keine zusätzlichen Texte mitgeben, auch keinen Signaturtext oder ähnliches, da dies in die Bewertung mit eingehen würde.