Spamming-Filter Begriffserklärung & Definition

Bei einem Spamming-Filter handelt es sich um ein spezielles Computerprogramm oder den Teil eines Programms, der dazu dient, unerwünschte Spam-Nachrichten herauszufiltern. Eine alternative Bezeichnung lautet auch Spambot. Der Begriff Spamming leitet sich vom englischen Begriff Spam, der im Prinzip nichts anderes als „Müll“ oder „Abfall“ bedeutet. Spamming bezeichnet also einen Vorgang, bei dem ungewollte und meist als belästigend empfundene Nachrichten in der Regel auf elektronischem Wege übermittelt werden. Der Empfänger der Spam-Nachricht hat der Zusendung im Normalfall nicht zugestimmt, weshalb solche E-Mails meist unerwünscht und bei Internetbenutzern verhasst sind. Aus diesem Grund wurden spezielle Softwarelösungen entwickelt, die dabei helfen sollen, Spam frühzeitig zu erkennen und entsprechend auszusortieren, bevor er im Postfach des Benutzers landet. Die hauptsächlichen Einsatzmöglichkeiten für das Filtern von ungewollten Spam-Nachrichten liegen im Bereich des E-Mail-Verkehrs. Im Zuge technischer Entwicklungen sind heutzutage aber auch viele Anwendungen dazu in der Lage, Spam auf Webseiten (beispielsweise in Form von Pop-Ups, Werbebannern oder Blogspam) zu unterbinden.

Die Methoden des Filterns

Eine weitverbreitete Möglichkeit zum Filtern von Spam stellt die sogenannte Blacklist-Methode dar. Dabei werden die Inhalte von E-Mails nach bestimmten Keywords, Ausdrücken oder aufgrund der Absenderadresse analysiert und mit den Einträgen innerhalb einer Blacklist verglichen. Falls der Filter ein Stichwort finden kann, dass in der Blacklist aufscheint, wird die entsprechende E-Mail von der Software aussortiert. In der Regel werden solche Listen händisch erstellt, was einiges an Aufwand mit sich bringt. Darüber hinaus ist es notwendig, die Blacklist immer auf einem möglichst aktuellen Stand zu halten, um eine zuverlässige Funktionsfähigkeit zu garantieren. Viele Spamming-Filter enthalten bereits fertig konfigurierte Blacklists, die mittels Updates aktualisiert werden können und dem Anwender somit die eigenständige Verwaltung ersparen. Die Trefferquote der Blacklist-Methode ist allerdings oftmals sehr limitiert. Ein großes Problem stellen Fälle dar, in denen möglicherweise wichtige E-Mails als Spam deklariert werden und es zu einer falschen Aussortierung kommt. Dies kann vor allem im Geschäftsverkehr, aber natürlich auch im privaten Bereich, durchaus gravierende Folgen haben. Natürlich ist es auch möglich, dass Spam-Nachrichten nicht als solche erkannt und daher fälschlicherweise an den Empfänger weitergeleitet werden. Dies passiert beispielsweise dann, wenn die unerwünschte Nachricht keine Stichwörter enthält, die in der Blacklist aufgelistet sind. Professionelle Spammer nutzen darüber hinaus verschiedenste Methoden um das Filtern mittels Blacklists zu umgehen. Eine einfache Möglichkeit ist zum Beispiel, bestimmte Risiko-Worte in abgewandelter Form in der Nachricht zu verwenden. Beispielsweise ist es möglich mittels Auslassungszeichen oder ungewöhnlicher Interpunktion, den Spamming-Filter auszutricksen, da dieser dann nicht mehr in der Lage ist das entsprechende Keyword zu erkennen und mit der Blacklist abzugleichen. Es gibt jedoch auch Möglichkeiten, komplexere Filtermuster zu implementieren, die alle erdenklichen Schreibweisen der Schlüsselwörter berücksichtigen und somit zu einer höheren Trefferquote führen. Eine weitere Möglichkeit zur Bekämpfung von unerwünschtem Spam stellt die Bayes-Filter-Methode dar. Dabei handelt es sich um einen selbstlernenden Filter, der aufgrund von Erkenntnissen aus der Wahrscheinlichkeitsrechnung versucht, Spamming-Nachrichten herauszufiltern. In einem ersten Schritt muss der Anwender eine bestimmte Anzahl an Nachrichten selbstständig als Spam oder Nicht-Spam einstufen. Auf Basis dieser Klassifizierungen sowie unter Zuhilfenahme der bayesschen Wahrscheinlichkeit, versucht der Spamming-Filter nun ein Muster zu erstellen, anhand dessen er unerwünschte Nachrichten selbstständig aussortiert. Dies funktioniert in der Regel auch gut und die Trefferzahl, beziehungsweise die Quote an erkannten Spam-Nachrichten, liegt meist bei über 90%. Sollte es dennoch vorkommen, dass einzelne Mails vom Filter nicht erkannt oder falsch eingestuft wurden, müssen diese vom Empfänger nachträglich und manuell sortiert werden. Aufgrund der Selbstlern-Funktion der Bayes-Filter-Methode, wird jede (vom Nutzer vorgenommene) neue Klassifizierung jedoch in künftige Überlegungen miteinbezogen. Dadurch lernt das System kontinuierlich dazu und die Trefferwahrscheinlichkeit erhöht sich im Verlauf der Zeit zunehmend. Aufgrund dieser dynamischen Komponente ist der Bayes-Filter der oben genannten Blacklist-Methode oftmals weit voraus und ist in der Lage nicht nur zuverlässiger, sondern auch genauer zu arbeiten. Der Markow-Filter verwendet eine ähnliche Methode wie der Bayes-Filter, nutzt dabei aber die sogenannte Markow-Kette. Dabei handelt es sich um einen stochastischen Prozess, bei dem der Zustandsraum diskret ist. Ziel der Markow-Kette ist es, Wahrscheinlichkeiten für das Eintreten kommender Ereignisse zu ermitteln um auf dieser Basis Entscheidungen treffen zu können. Eine besondere Eigenschaft der Markow-Kette ist es, dass auch bei einer Ausgangslage, die nur wenige Daten zur Verfügung stellt, genauso gute Prognosen für zukünftige Ereignisse möglich sind. Es ist also nicht grundsätzlich notwendig, den Vorlauf eines bestimmten Prozesses in allen Details darzustellen, um aussagekräftige Ergebnisse zu erhalten. Aus diesem Grund ist der Markow-Filter ein noch effektiverer Spamming-Filter und der Bayes-Methode somit überlegen.

Grundlegende Anhaltspunkte zur Filterung von Spam

Je nach verwendetem Spamming-Filter gibt es unterschiedliche Bezugspunkte, die analysiert werden um eventuellen Spam zu erkennen und entsprechend auszusortieren. Eine Möglichkeit stellt dabei die Überprüfung des Absenders der Nachricht dar. Dies geschieht in der Regel über eine Kontrolle der Versender-Adresse oder der entsprechenden URL, die die Lokalisierung und Identifizierung einer Webseite gestattet. Darüber hinaus gibt es auch noch die Möglichkeit, Nachrichten anhand des zugehörigen Headers zu filtern. Der Header-Abschnitt einer E-Mail-Nachricht ist in diesem Fall als „Briefkopf“ zu verstehen und enthält im Regelfall einerseits Informationen über den Absender, andererseits aber auch Daten über mögliche weitere Empfänger und den Betreff der Nachricht. Des Weiteren können Mails auch durch Überprüfung des Absender-Servers gefiltert werden. In diesem Fall wird der Server kontrolliert, der die Inhalte versandt oder weitergeleitet hat. Treten hier Unstimmigkeiten oder besondere Merkmale auf, schlägt der Spamming-Filter an und sortiert die entsprechende Nachricht aus. Schlussendlich gibt es auch noch die Möglichkeit, Nachrichten anhand eines sogenannten Content-Filters zu selektieren. In diesem Fall wird der eigentliche Nachrichtentext analysiert und auf das Vorhandensein bestimmter Kriterien überprüft. Ein großer Nachteil bei dieser Methode ist, dass bei sehr einfachen und rigoros programmierten Content-Filtern jede Nachricht, die entsprechende Schlüsselwörter enthält, aussortiert wird. Selbst wenn die Nachricht die betreffenden Worte in einem ganz anderen Kontext verwendet und sich dadurch grundlegend von regulären Spam-Nachrichten unterscheidet, wird dies vom Spamming-Filter nicht erkannt und es kommt zu einer Sperre. Meist wird mittels eines Content-Filters das Ziel verfolgt, illegale, obszöne oder rein kommerzielle Nachrichten zu filtern. Allerdings können solche Filter nicht nur im Bereich des E-Mail-Verkehrs verwendet werden, sondern bieten auch für die Überprüfung und Filterung von Webseites eine sinnvolle Verwendungsmöglichkeit. Eine Weiterentwicklung des einfachen Content-Filters stellen intelligente Filter dar. Diese sortieren Nachrichten oder Seiten erst dann aus, wenn ein entsprechend hohes Signifikanzniveau an Treffern erreicht wurde.

Datenbanken als Lösungsansatz

Abgesehen von den bereits beschriebenen Methoden, gibt es auch Ansätze, die auf der Nutzung von Datenbanken basieren. Bereits gegen Ende des letzten Jahrtausends wurde innerhalb des Usenet darüber nachgedacht, Spam aufgrund der in den Nachrichten genannten Internetadressen oder auch Telefonnummern zu erkennen. Es ist zwar möglich, dass die Versender von Spam ihre Nachrichten individuell modifizieren und personalisieren, letztendlich ist der mögliche Adressraum aber nicht unbegrenzt variabel. Die Ursache dafür ist, dass es in allen Spam-Nachrichten grundsätzlich darum geht, möglichst viele Benutzer zu einer Aktion, beziehungsweise zur Kontaktaufnahme zu bewegen, was sich auch entsprechend in der Syntax niederschlägt. Aus diesem Grund stellt der datenbank-basierte Lösungsansatz eine grundsätzlich gute Möglichkeit zur Identifizierung von Spam dar. Charakteristisch für diese Art von Spamming-Filter ist, dass im Vergleich zu anderen Methoden keine Heuristiken genutzt werden, bei denen es in der Regel sehr wahrscheinlich ist, dass es zu falschen Klassifizierungen kommt. Da datenbank-basierte Spamming-Filter jedoch aufgrund der technischen Anforderungen und limitierten Reaktionsgeschwindigkeit nur schwer umzusetzen waren, wurde diese Methode lange Zeit als nicht praxistauglich eingestuft.

Zusammenfassung

Ein Spamming-Filter ist eine Software, die darauf ausgelegt ist, unerwünschte E-Mails und andere Spam-Inhalte zu erkennen und auszusortieren. Der Einsatzbereich dieser Filterlösungen ist hauptsächlich der E-Mail-Verkehr, doch sie können auch Spam auf Webseiten unterbinden.

Zur Spam-Erkennung existieren verschiedene Methoden wie die Blacklist-Methode und Bayes-Filter. Während die Blacklist-Methode auf vorgefertigten Listen von Spam-Keywords basiert, lernt der Bayes-Filter eigenständig und passt sich ständig an, was zu einer höheren Trefferquote führt. Zudem gibt es den Markow-Filter, der Wahrscheinlichkeitsmodelle für noch effektivere Ergebnisse verwendet.

Außer den genannten Filtermethoden werden auch die Absenderinformationen, Header-Daten und der Inhalt der Nachrichten für die Spam-Erkennung herangezogen. Hier ist jedoch Vorsicht geboten, da zu rigide Filter falsche Positiv- oder Negativtreffer generieren können.

Eine innovative Lösung zur Spam-Erkennung bietet die Nutzung von Datenbanken. Diese Methode zielt darauf ab, Spam über die in den Nachrichten enthaltenen Adressinformationen zu identifizieren und ist in der Regel präziser als heuristische Ansätze.

Häufige Fragen und Antworten

Was ist ein Spamming-Filter?

Ein Spamming-Filter ist ein spezielles Computerprogramm oder Programmbestandteil, der dazu dient, unerwünschte Spam-Nachrichten zu erkennen und herauszufiltern. Durch den Einsatz solcher Filterlösungen sollen Spam-Mails frühzeitig erkannt und ausgesondert werden, bevor sie im Postfach des Benutzers landen. Spamming-Filter werden hauptsächlich im Bereich des E-Mail-Verkehrs eingesetzt, können aber auch auf Webseiten zur Unterbindung von Spam-Meldungen verwendet werden.

Welche Methoden gibt es zum Filtern von Spam?

Es gibt verschiedene Methoden zum Filtern von Spam. Eine weit verbreitete Methode ist die Blacklist-Methode, bei der die Inhalte von E-Mails nach bestimmten Keywords oder Ausdrücken sowie Absenderadressen analysiert und mit einer vorgefertigten Blacklist verglichen werden. Eine weitere Methode ist der Bayes-Filter, ein selbstlernender Filter, der mithilfe von Wahrscheinlichkeiten Spam-Nachrichten herausfiltert. Der Markow-Filter nutzt eine ähnliche Methode wie der Bayes-Filter, verwendet aber die Markow-Kette zur Prognose von zukünftigen Ereignissen. Datenbanken können ebenfalls zur Spam-Erkennung verwendet werden, indem sie bestimmte Adressinformationen in den Nachrichten identifizieren.

Was sind grundlegende Anhaltspunkte zur Filterung von Spam?

Bei der Filterung von Spam können verschiedene Anhaltspunkte berücksichtigt werden. Dazu gehören die Überprüfung des Absenders der Nachricht durch Kontrolle der Versender-Adresse oder URL, die Analyse des Headers einer E-Mail-Nachricht sowie die Überprüfung des Absender-Servers. Auch eine Filterung basierend auf dem Inhalt der Nachricht, zum Beispiel mithilfe von Content-Filtern, ist möglich. Dabei ist jedoch Vorsicht geboten, da zu rigide Filter zu falschen Treffern führen können.

Spamming-Filter Begriffserklärung und Definition

Die Methoden des Filterns

Grundlegende Anhaltspunkte zur Filterung von Spam

Datenbanken als Lösungsansatz

Zusammenfassung

Häufige Fragen und Antworten