FDEC
Datastromen

In omvangrijke datastromen (creditcards, betaalkaarten, ziektekostenverzekeringen, etc.) is het van belang een goede balans te vinden tussen doelmatigheid (je kunt en wilt niet alles controleren) en rechtmatigheid (je moet wel af en toe, en soms heel gericht controleren). Dit probleem, ook bekend als de spagaat tussen doelmatigheid en rechtmatigheid, vraagt om een goede monitoring van transacties, om een goede opvolging van gevonden anomalies en om een sterk fraudedetectie-imago in de markt.

Transacties zijn niet altijd financiële overboekingen of de overdracht van eigendom. In de praktijk wordt elke transactie, elke handeling op de website, elke click van de muis opgeslagen op webservers en deze informatie kan later worden geanalyseerd om ongewone patronen vast te stellen. Op deze manier wordt dagelijks voor terabytes aan informatie gegenereerd en opgeslagen. Zijn we in staat om deze alsmaar groeiende bergen van informatie adequaat te monitoren?

De Wet van Moore en wet van Lyman/Varian

Helaas zijn de vooruitzichten niet gunstig: de hoeveelheid aan data groeit veel sneller dan de rekenkracht van computers en de groei in opslagcapaciteit.

Volgens het bekende Berkeley-onderzoek van Peter Lyman en Hal Varian verdubbelt de hoeveelheid gegevens die opgeslagen wordt op servers van ondernemingen en departementen nagenoeg elk jaar.

De groei in rekenkracht van computers (zie de Wet van Moore die stelt dat deze ruwweg elke 18 maanden verdubbelt) houdt dit niet bij. Dit betekent dat als men nu een probleem heeft met het hebben van overzicht over de transactiestromen, dit probleem de komende jaren heel snel groter wordt.

De enige manier om het gat te dichten tussen de groeiende hoeveelheid data en de (achterblijvende) rekenkracht van computers is het ontwikkelen van nieuwe, zeer efficiënte en effectieve algoritmen en technieken: we gaan van datamining naar datastream mining.

Zo zijn er de afgelopen jaren verschillende nieuwe algoritmen ontwikkeld en er zullen nog veel volgen. Deze algoritmen zijn in staat om on-the-fly grote datastromen te analyseren zonder de gegevens in een database op te slaan: een stroom transacties vloeit door een stream-mining algoritme die in real time afwijkingen detecteert. Op deze wijze worden miljoenen transacties gecontroleerd zonder dat ze worden opgeslagen. Dit soort technieken is erg effectief in fraudedetectie bij bijvoorbeeld creditcards, betaalkaarten en bankrekeningen omdat in real time detectie plaatsvindt en blokkering snel kan plaatsvinden waardoor vervolgschade wordt verhinderd.



HomeFraudeFraudedetectieDatastromenOnderzoekConsultancyCursussenArtikelenOver ons