Proti spamu je Bayesovo filtrování nejefektivnější

Dosažení detekční míry zachycení spamu vyšší než 98% s pomocí matematického přístupu

Wednesday, 20. June 2007

Úvod

Tento white paper popisuje, jak lze aplikovat Bayesovu matematiku v oblasti nevyžádané pošty. Výsledkem je adaptabilní metoda, technika „statistické inteligence", která dosahuje vysoké míry zachycení spamu.

Dokument také vysvětluje, proč je Bayesův přístup nejlepší způsob, jak spam jednou provždy zastavit v době, kdy spam snadno obchází překážky kladené statickými technologiemi, jako jsou databáze známého spamu, kontrola dle blacklistu a kontrola na klíčová slova. To neznamená, že jsou tyto technologie zastaralé, ale bez kombinace s Bayesovým filtrem se na ně nemůžete spolehnout.

Stávající techniky detekce spamu

Nevyžádaná pošta se stává čím dál větším problémem. Počet spamu vzrůstá denně – studie ukázaly, že více než 50% emailové komunikace lze zařadit mezi spam; Radicati Group předpovídá, že toto číslo dosáhne v roce 2007 již 70%. Mimo to se autoři nevyžádané pošty stále zdokonalují a snaží se porazit „statické“ metody boje proti spamu.

V současnosti jsou technologie používané v antispamových produktech statické. To znamená, že je lze docela jednoduše obejít drobnou úpravou zprávy. Aby toto spammeři dokázali, prostě zkoumají nejnovější antispamové technologie a hledají způsoby, jak je obelstít.

K efektivnímu boji s nevyžádanou poštou jsou zapotřebí nové adaptabilní metody. Taková metoda musí být seznámena se spammerskými metodami tak, jak se v průběhu doby mění. Musí se také přizpůsobit konkrétní organizaci, kterou má před spamem chránit. Odpovědí na uvedené požadavky je Bayesova matematika.

Jak funguje Bayesův filtr

Bayesovo filtrování je založeno na principu odlišnosti většiny událostí a pravděpodobnosti toho, že jedna událost bude shodná s budoucím výskytem stejné události (více informací o Bayesově filtrování naleznete v článcích na „Bayesian Parameter Estimation“ – http://www-ccrma.stanford.edu/~jos/bayes/Bayesian_Parameter_Estimation.html a „An Introduction to Bayesian Networks and their Contemporary Applications“ – http://www.niedermayer.ca/papers/bayesian/bayes.html).

Stejnou techniku lze využít při hodnocení spamu. Jestliže je výskyt konkrétního textu ve spamu častější, než je tomu u validní pošty, a objeví se nová zpráva s tímto textem, můžeme takovou zprávu logicky považovat za spam.

Vytvoření vlastní Bayesovy databáze slov

Dříve, než je možné touto metodou filtrovat poštu, musí uživatel vytvořit databázi slov a znaků (jako jsou např. znak $, IP adresy, domény atd.), získaných ze vzorků spamu a běžné elektronické pošty (nazvaných „ham“).

HAM diagram

Vytvoření databáze slov pro filtr

Každému slovu či znaku je přidělena hodnota pravděpodobnosti; ta je založena na výpočtech, které berou v úvahu četnost výskytu slova v nevyžádané poště (spamu) vzhledem k legitimní zprávě (hamu). Děje se tak analýzou uživateli odeslané pošty a analýzou známého spamu: všechna slova z obou množin jsou analyzována a je vygenerována pravděpodobnost říkající, zda jde o spam.

Pravděpodobnost se počítá zhruba následovně: Jestliže se slovo „hypotéka“ objeví ve 400 z 3 000 spamů a pouze v 5 ze 300 legitimních zpráv, tak hodnota pravděpodobnosti dosáhne čísla 0,8889 (tj.: [400/3000] děleno [5/300 + 400/3000]).

Vytvoření ham databáze (přizpůsobené přímo vaší organizaci)

Je důležité poznamenat, že se jedná o analýzu založenou na obsahu firemních emailů, a tím pádem šitá na míru konkrétní společnosti. Například finanční ústav používá slovo hypotéka poměrně často, ale s obecnými antispamovými pravidly by se pošta vyhodnotila jako spam.

Bayesův filtr bere naopak v úvahu obsah odesílaných firemních emailů (a rozpozná, že se slovo „hypotéka“ ve validní poště objevuje poměrně často), a proto detekuje spam daleko lépe a má velice nízké procento tzv. falešných pozitiv (nesprávného vyhodnocení).

Všimněte si, že některé anti-spamové filtry s nejzákladnějšími schopnostmi Bayesovy analýzy (například spamový filtr aplikace Outlook nebo Internet Message Filter v Exchange serveru) nevytvářejí soubor s ham daty přizpůsobený vaší společnosti, ale že při instalaci nahrávají unifikovaná data. Ačkoli tato metoda nevyžaduje počáteční období učení se, má 2 hlavní vady:

1. Ham data jsou veřejně dostupná, a proto jej profesionální hackeři lehce obejdou. Na internetu koluje řada návodů, jak toho dosáhnout. Když jsou ale data jedinečná pro prostředí vaší společnosti, je snaha o analýzu souboru s ham daty nepoužitelná.

2. Unifikovaný soubor s ham daty není přizpůsoben vašemu prostředí, a ze zásady tedy nemůže být dostatečně efektivní. Opravdu chcete doplácet na vysoký počet falešných pozitiv?

Vytvoření databáze se spamem

Bayesův filtr se spoléhá i na soubor s daty o spamu. Tento soubor musí obsahovat široký vzorek známého spamu a musí být průběžně aktualizován. Bayesovu filtru zajistí schopnost reakce na nejnovější triky spammerů, a tím i vysokou schopnost odhalit nevyžádanou poštu (mějte prosím na paměti, že požadovaných výsledků dosáhne až po ukončení fáze dvoutýdenního učení).

Jak probíhá filtrování

Jakmile jsou vytvořeny databáze typu ham a spam, je možno vypočítat pravděpodobnost a filtr je připraven k použití.

Ve chvíli, kdy je doručen nový email, je rozdělen na slova, a jsou vybrána ta, který jsou pro detekci spamu nejdůležitější. Z těchto slov vypočítá Bayesův filtr pravděpodobnost, zda se jedná spam. Zpráva je označena za spam, jestliže je pravděpodobnost vyšší než prahová hodnota – řekněme 0,9.

Bayesův přístup je při posuzování spamu velmi efektivní – v květnu 2003 informoval článek BBC o faktu, že Bayesova technologie může dosáhnout přesnosti 99,7% při minimálním množství falešných pozitiv.

V čem je Bayesovo filtrování lepší

1. Bayesova metoda bere v úvahu celou zprávu – Rozpoznává slova, která identifikují spam, ale i slova, které označují validní zprávu. Například: ne každý email, který obsahuje slova „zdarma“ a „hotovost“, musí být spam. Výhodou Bayesova filtru je, že bere ohledy na nejdůležitější slova a spočítá pravděpodobnost toho, zda se jedná o spam. Bayesova metoda sice shledá slova „zdarma“ a „hotovost“ důležitými, ale také rozpozná přítomnost jména odesilatele v kontaktech a tím pádem vyhodnotí zprávu jako běžnou poštu. Jinými slovy: Bayesovo filtrování je daleko inteligentnější přístup, jelikož oproti kontrole na klíčová slova zkoumá veškeré aspekty zprávy.

2. Bayesův filtr se neustále zdokonaluje – Učením z nového spamu i validní odesílané pošty se Bayesův filtr vyvíjí a přizpůsobuje novým praktikám spammerů. Pokud spammeři začnou používat „z-d-a-r-m-a“ namísto slova „zdarma“, budou úspěšně obcházet kontrolu na klíčová slova do doby, než spojení „z-d-a-r-m-a“ doplníte do databáze klíčových slov. Bayesův filtr takové praktiky ihned odhalí; a pokud nalezne spojení „z-d-a-r-m-a“, je to ten nejlepší ukazatel pro identifikaci spamu. Jako další příklad lze uvést použití „5ex“ namísto slova „Sex“.

3. Bayesova technika je citlivá k uživateli – Aby spam dosáhl svého adresáta, musejí spammeři zasílat takové emaily, jenž filtry objetí nezastaví. Jelikož Bayesovo filtrování bere v úvahu profil firemních emailů, rozpoznává spam daleko snadněji: tento profil by spammeři museli k obelstění filtru znát. Ale protože spam používá svůj vlastní slovník a charakter, na Bayesův filtr si jen tak nepřijde.

4. Bayesova metoda je multilingvální – Bayesův antispamový filtr může být – díky adaptabilitě – použit pro jakýkoliv jazyk. Mnoho seznamů klíčových slov existuje pouze v anglickém jazyce, a proto jsou pro jinou řečí mluvící oblasti zcela nepoužitelné. Bayesův filtr bere v potaz i jazykové odchylky či různý význam slov v různých oblastech. Tato schopnost zvyšuje šance na zachycení většího počtu spamu.

5. Oklamání Bayesova filtru je obtížnější než oklamání filtrování klíčových slov – Pokročilý spammer, který chce Bayesův filtr obejít, může buď použít méně slov ukazujících na spam (např. Viagra, Cash, atd.) nebo použít více slov identifikujících validní email (platné jméno z kontaktů, apod.). Provedení druhého způsobu můžeme vyloučit, jelikož spammer nemůže znát poštovní profily jednotlivých příjemců, a ani nikdy nemůže v získání takových informací doufat. Použití neutrálních slov, jako např. „public“, nepomůže, jelikož jim závěrečná analýza nepřikládá žádnou váhu. Rozdělení slov identifikujících spam, jako např. použití slova „h-y-p-o-t-é-k-a“ namísto „hypotéka“ pouze zvyšuje šanci na odhalení – běžný uživatel takové rozdělení použije asi jen ve výjimečných případech, pokud vůbec.

Bayesovo filtrování nebo aktualizovaná databáze klíčových slov

Některé typy antispamového software pravidelně stahují aktualizační soubory s klíčovými slovy. Přestože je to řešení lepší, než použití neaktualizované databáze, skutečností je, že i takový software lze obelstít velmi snadno. Pravidelné stahování aktualizací to trochu stíží, ale ve srovnání s Bayesovým filtrem se jedná o neefektivní metodu.

Co získáte

Jestliže je Bayesovo filtrování správně implementováno, tedy je přizpůsobeno prostředí vaší společnosti, jedná se o zdaleka nejefektivnější technologii pro boj se spamem. Má i stinné stránky? Dobře, svým způsobem zde jedna je, ale lze ji snadno překonat. Předtím, než necháte Bayesův filtr rozhodovat, musíte vydržet zhruba dva týdny do ukončení procesu učení – a nebo databázi ham a spam vytvoříte sami. Tento úkol může být celkem komplikovaný, takže je opravdu lepší sečkat, aby měl filtr na učení dostatek času. V průběhu doby se Bayesův filtr stává stále efektivnějším tak, jak se učí více o obsahu elektronických zpráv vaší organizace. Jak nám říká staré moudro: „Kdo si počká, ten se dočká“.

Proto je při hodnocení jednotlivých anti-spamových aplikací nutné pamatovat na následující fakt: pokud produkt obsahuje vyspělou Bayesovu analýzu, je schopen pracovat naplno až za několik týdnů. Je pravděpodobné, že klasický anti-spamový software bude z počátku pracovat lépe, ale Bayesův filtr jej za několik týdnů snadno překoná jednou provždy.

zdroj : http://www.gfi.cz

Hledání na webu

IXULOT Blog - Tomáš Hanus