Intern onderzoek in de praktijk: zoeken in grote datavolumes

In een eerdere blog zijn een aantal problemen besproken die een onderzoeker kan tegenkomen tijdens een intern onderzoek. Eén van de problemen die werd genoemd in die blog, was het zoeken in grote datavolumes. In deze blog willen we dieper in gaan op de oplossingen die er zijn om een onderzoeker te helpen om te gaan met dit soort grote data verzamelingen.

Bij grote interne onderzoeken of onderzoeken waarbij vooraf weinig bekend is over de situatie en wie erbij betrokken zijn, wordt veelal grote hoeveelheden aan data verzameld. De hoeveelheid verzamelde data groeit gestaag, , en het ziet er niet naar uit dat deze toename gaat stoppen. We gaat bij interne onderzoeken al snel om meer dan 10.000 verzamelde documenten. In deze verzamelde documenten moet een onderzoeker vervolgens gaan zoeken naar bewijs van onregelmatigheden.

Handmatig zoeken in zulke grote hoeveelheden documenten zou veel tijd kosten en is bijzonder moeilijk, zeker wanneer er deadlines in het spel zijn. Maar hoe kan je dan wél op een efficiënte manier zoeken?

Geavanceerd zoeken

Om efficiënt te zoeken in grote datavolumes moet de software geavanceerde zoektechnieken bevatten die het mogelijk maken om snel en gericht te kunnen zoeken naar bewijs van onregelmatigheden.

Met ZyLAB ONE kan op meerdere manieren in data gezocht worden. Met behulp van zoekvragen, ook wel query’s, die relevante termen bevatten, kan een intern onderzoeker beginnen te zoeken naar bewijs.

Zaak is natuurlijk wel dat de onderzoeker beschikt over een krachtige zoekmachine waarbij je niet alleen op exacte trefwoorden kan zoeken, maar ook zoekopdrachten verder kan specificeren. Het gebruik van spellingsvariaties (fuzzy search of wildcards), combinaties van termen middels operatoren (zoals AND, OR, NOT), Proximity (een woord binnen bijvoorbeeld 10 woorden van een ander woord) en geavanceerde combinaties in bijvoorbeeld een Quorum search: 3 van {woord 1, woord 2, woord 3, ….. } worden zoekopdrachten gerichter en zijn de resultaten specifieker en relevanter.

ZyLAB ONE laat de onderzoeker ook zoeken op patronen (reguliere expressies) en op de waarde van getallen en bedragen. Zo kun je bijvoorbeeld met “99-XXX-9” alle nummerborden vinden die bestaan uit de combinatie van 2 cijfers, streepje, drie letters, streepje en dan nog één cijfer. Of je kan zoeken op “> 10000” voor documenten die bedragen noemen groter dan €10.000. Meer voorbeelden van dit soort zoektechnieken kunnen gevonden worden op: docs.zylab.com

Zoeken met behulp van machine learning

Na het zoeken met behulp van query’s, kan een intern onderzoeker gebruik maken van ‘machine learning’ technieken. Deze worden in de praktijk TAR genoemd, wat staat voor Technology Assisted Review. Hierbij gaat de software zelf op zoek naar mogelijk relevante documenten. Door gebruik te maken van een aantal eerder gevonden relevante documenten of een query, kan een intern onderzoeker snel en efficiënt vergelijkbare documenten (e.g. bewijs) vinden met behulp van de software. In de praktijk worden met deze techniek in een hele korte tijd vaak twee tot drie keer meer relevante documenten naar boven gehaald dan bij handmatig zoeken met trefwoorden.

Als de onderzoeker geen voorbeelden heeft, dan is het ook mogelijk om met behulp van ‘Topic Modeling’ de computer de data te laten organiseren en de gebruiker op door de computer zelf ontdekte relevante ‘topics’ te laten bladeren.

Topic Modeling

Dit is een vorm van text-mining waarbij ZyLAB ONE de mogelijkheid biedt om overzichten te creëren tussen alle verschillende documenten door ze in (aanpasbare) categorieën in te delen. Hierdoor kan een onderzoeker makkelijker focussen op een bepaalde categorie aan documenten, zoals bijvoorbeeld e-mails.

In plaats van de onderzoeker te laten zoeken, gaat de software zelf aan de slag en wordt de data georganiseerd op zo’n manier dat de gebruiker sneller antwoorden kan vinden op de meest voorkomende zoekvragen: Wie, Wat, Wanneer, Waar, Waarom, Waarmee, etc. Dit is ideaal als een onderzoeker niet precies weet op welke trefwoorden te zoeken of als fraudeurs om niet gevonden te worden, bijvoorbeeld “code woorden” gebruiken. Hierover meer in de volgende blog.

Wilt u hier meer over weten? Kijk dan verder op onze website, of vraag een demo aan.

Intern onderzoek in de praktijk: zoeken in grote datavolumes

Geavanceerd zoeken

Zoeken met behulp van machine learning

Topic Modeling

Jelle Oorebeek

Blogserie Mededinging: 5 afspraken die kartels maken

Mededingingsonderzoek in de praktijk: zoeken in grote datavolumes

Subscribe to our latest insights

Intern onderzoek in de praktijk: zoeken in grote datavolumes

Geavanceerd zoeken

Zoeken met behulp van machine learning

Topic Modeling

Care to share?

Jelle Oorebeek

Keep learning

Blogserie Mededinging: 5 afspraken die kartels maken

Mededingingsonderzoek in de praktijk: zoeken in grote datavolumes

Subscribe to our latest insights