• Home
  • Mededingingsonderzoek in de praktijk: zoeken in grote datavolumes

Mededingingsonderzoek in de praktijk: zoeken in grote datavolumes

Gedurende een mededingingsonderzoek kan een advocaat tegen een aantal punten aanlopen. In de vorige blog is er besproken wat het proces van een informatieverzoek is, en welke knelpunten er tijdens dit proces op de loer liggen. Het eerste knelpunt is dat er bij het beantwoorden van een informatieverzoek, gezocht moet worden door grote hoeveelheden data. In deze blog gaan we dieper in op de oplossingen die bestaan om te helpen met het zoeken door die data.

Bij de start van een mededingingsonderzoek is er vaak alleen een vermoeden dat een bedrijf betrokken is bij een kartel. De autoriteiten verzamelen zoveel mogelijk data om dit vermoeden te bevestigen en te bewijzen. Meer informatie betekent echter ook meer zoeken. De hoeveelheden data kunnen soms wel oplopen in de miljoenen. In deze data moeten onderzoekers vervolgens zoeken naar de antwoorden op de vragen van de autoriteiten.

Het kost veel geld en tijd om alle data handmatig te doorzoeken. Ook is er meer kans dat er belangrijke informatie over het hoofd gezien wordt. De vraag is dus: hoe kan je op een efficiënte manier data doorzoeken?

Geavanceerd zoeken

Om efficiënt te zoeken in grote datavolumes is software de beste oplossing. Hiervoor moet de software geavanceerde zoektechnologie bevatten die het mogelijk maakt om snel en gericht te kunnen zoeken naar bewijs.

Met ZyLAB ONE kan op meerdere manieren gezocht worden in de data. Met behulp van query’s die relevante termen bevatten, kan een onderzoeker beginnen met zoeken naar bewijs. Zaak is natuurlijk wel dat de onderzoeker beschikt over een krachtige zoekmachine waarbij je niet alleen op exacte trefwoorden kan zoeken, maar ook andere zoekfuncties kan inzetten. Spellingsvariaties (fuzzy search of wildcards), combinaties van termen middels operatoren (zoals AND, OR, NOT), Proximity (een woord binnen bijvoorbeeld 10 woorden van een ander woord) en geavanceerde combinaties in bijvoorbeeld een Quorum search: 3 van {woord 1, woord 2, woord 3, ….. }.

De meest geavanceerde zoekmachines laten de onderzoeker ook zoeken op patronen (reguliere expressies) en op de waarde van getallen en bedragen. Zo kun je bijvoorbeeld met “99-XXX-9” alle nummerborden vinden die bestaan uit de combinatie van 2 cijfers, streepje, drie letters, streepje en dan nog één cijfer. Of je kan zoeken op “> 10000” voor documenten die bedragen noemen groter dan €10.000. Dit is handig om verdachte prijsafspraken te vinden. Meer goede voorbeelden van dit soort zoektechnieken kunnen gevonden worden op: docs.zylab.com

Zoeken met behulp van machine learning

Na het zoeken met behulp van query’s, kan een onderzoeker gebruik maken van ‘machine learning’ technieken. Dit worden in de praktijk Technology Assisted Review (TAR) genoemd. Hierbij gaat de software zelf op zoek naar mogelijk relevante documenten.

Door gebruik te maken van een aantal eerder gevonden relevante documenten of een query, kan een onderzoeker snel en efficiënt vergelijkbare documenten (e.g. bewijs) vinden met behulp van de software. In de praktijk worden met deze techniek in een hele korte tijd vaak twee tot drie keer meer relevante documenten naar boven gehaald dan bij handmatig zoeken met trefwoorden.

Dit is erg belangrijk bij het beantwoorden van een informatieverzoek. De hoeveelheid clementie die een bedrijf kan krijgen wordt namelijk gebaseerd op snelheid en op de waarde van de informatie. Doordat met gebruik van deze techniek meer relevante documenten omhoog komen, heeft het bedrijf die deze techniek meer waardevolle informatie dan de andere betrokken bedrijven. Zij maken dan kans op meer clementie.

Als de onderzoeker geen voorbeelden heeft, dan is het ook mogelijk om met behulp van ‘Topic Modeling’ de computer de data te laten organiseren en de gebruiker op door de computer zelf ontdekte relevante ‘topics’ te laten bladeren.

Dit is een vorm van text-mining waarbij ZyLAB ONE de mogelijkheid biedt om overzichten te creëren tussen alle verschillende documenten door ze in (aanpasbare) categorieën in te delen. Hierdoor kan een onderzoeker makkelijker focussen op een bepaalde categorie aan documenten, zoals bijvoorbeeld e-mails.

In plaats van de onderzoeker te laten zoeken, gaat de software zelf aan de slag en wordt de data georganiseerd op zo’n manier dat de gebruiker sneller antwoorden kan vinden op de meest voorkomende zoekvragen: Wie, Wat, Wanneer, Waar, Waarom, Waarmee, etc. Dit is ideaal als een onderzoeker niet precies weet op welke trefwoorden te zoeken of als bedrijven om niet gevonden te worden, bijvoorbeeld “code woorden” gebruiken.

Wanneer de onderzoeker wel een aantal relevante documenten heeft kunnen vinden, kan hij in de TAR aangeven dat dit de soort data is, waar hij naar op zoek is. Met gebruik van TAR kan de onderzoeker de software laten zoeken naar data die dezelfde informatie bevat als de gevonden documenten. Door TAR te gebruiken, wordt er meestal twee tot drie keer meer relevante data gevonden. Dit wordt ook gedaan in een fractie van de tijd die nodig is wanneer je handmatig zoekt naar de data.

Doordat de onderzoeker aangeeft naar welke data de computer moet zoeken en de computer vervolgens zoekt naar alle mogelijke relevante documenten, kan de onderzoeker ook controleren of hij alle relevante data gevonden heeft die hij nodig had. Hierdoor is de kans, dat er data over het hoofd wordt gezien, erg klein. In de komende blogs zullen we hier verder op in gaan.

Wilt u hier meer over weten? Kijk dan verder op onze website, of vraag een demo aan op: www.zylab.nl