Intern onderzoek in de praktijk: doorzoekbaarheid van data

Documenten komen in allerlei vormen en maten. Gehele boekwerken in de vorm van een pdf, afbeeldingen zonder tekst en audiobestanden zijn hier een paar voorbeelden van. Alle zojuist genoemde formaten zijn bestanden die in beginsel niet doorzoekbaar zijn met de computer. Dit maakt het er voor de intern onderzoeker niet makkelijker op. In grote interne onderzoeken is het onmogelijk voor de onderzoeker om elke afbeelding, pdf-bestand, of opnames stuk voor stuk handmatig te doorzoeken.

Hoe kan een intern onderzoeker dit oplossen? In deze blog leggen we uit hoe eDiscovery een groot deel van het werk uit handen kan nemen, door vooraf de data volledig doorzoekbaar te maken.

Alles op één plek

Verzamelde data komt vrijwel altijd uit meerdere bronnen en in verschillende formaten. Bronnen zijn bijvoorbeeld computerbestanden, mailboxen, websites, archieven, USB sticks etc. Data die uit deze bronnen worden gehaald kan vervolgens voorkomen in diverse formaten, zoals bijvoorbeeld als .docx, .pdf, .jpeg, .mp3 of als fysiek document.

Voordat er efficiënt gezocht kan worden in al deze bestandstypen, is het belangrijk dat alle data verzameld wordt op één plaats en makkelijk doorzoekbaar wordt gemaakt. Voor kleinere interne onderzoeken kan een harde schijf, waarop alle documenten staan, genoeg zijn om efficiënt te zoeken.

Voor grotere zaken met grote hoeveelheden data is een harde schijf echter vaak onvoldoende, omdat er op die manier (nog) niet gericht gezocht kan worden naar bewijs van onregelmatigheden. Het gebruik van geavanceerde software, die de computer een groot deel van het werk laat doen, kan een uitkomst zijn.

Geavanceerde software

Software die is toegespitst op het doorzoeken van grote hoeveelheden data zijn al meerdere decennia op de markt. Zulke software wordt ook wel eDiscovery-software genoemd, software waarmee je op een (juridische) manier digitale data kan doorzoeken. Het is, met de explosieve groei van technologie en de exponentiële groei van data, geen verrassing dat eDiscovery-software steeds gewilder is in de juridische wereld. Door het mogelijk te maken om alle data op één plek te uploaden, doorzoekbaar te maken en met verschillende zoektechnieken te doorzoeken, wordt het werk van een intern onderzoeker een stuk makkelijker.

Er zijn meerdere aanbieders van eDiscovery-software. Om uit te vinden welke software het best bij welk bedrijf of organisatie past, is het belangrijk om altijd onderzoek te doen naar de verschillen tussen aanbieders en te bepalen welke software het beste aansluit bij de werkzaamheden die het bedrijf of de organisatie moet vervullen.

Hoe doet ZyLAB ONE het?

ZyLAB biedt het eDiscovery-platform ZyLAB ONE aan. Op dit platform kan een gebruiker een dossier aanmaken en daarin alle verzamelde documenten uploaden.

Voordat er kan worden gezocht naar bewijs, zal alle data volledig doorzoekbaar moeten worden gemaakt. Voor de meeste Microsoft Office (Word, Excel, PowerPoint) is dat niet lastig: de tekst in de bestanden kan eenvoudig gebruikt worden om de inhoud van de bestanden te doorzoeken. Echter, PDF’s zijn niet altijd doorzoekbaar. Dit geldt ook voor zogenaamde image bestanden: BMP, TIFF, GIF, PCX, en de meeste andere grafische bestanden. Door gebruik van Optical Character Recognition (OCR)-technologie kunnen deze doorzoekbaar gemaakt worden (vaak in meerdere talen en in meerdere richtingen). Het is zelfs mogelijk om plaatjes te voorzien van tekstuele labels die de inhoud beschrijven.

Wanneer het gaat om geluid, zoals bij geluidsopnames of de audio-component van een video, is OCR niet bijzonder nuttig. Echter, spraakherkenningssoftware stelt ons vandaag de dag in staat om van deze opnames een transcriptie te maken, die vervolgens ook doorzocht kan worden.

Samengestelde bestanden

Elektronische bestanden kunnen ook bestaan uit zogenaamde containers of samengestelde bestanden. Een container bevat meerdere bestanden, denk aan een ZIP (gecomprimeerd) of een PST (email) bestand. Een voorbeeld van een samengesteld document is een plaatje in een Word of PowerPoint bestand.

Fraudeurs weten dat “normale” zoeksoftware ‘verborgen’ bestanden niet kan vinden. Dit zijn bestanden die worden verstopt binnen andere bestanden. Een voorbeeld hiervan is om berichten te verbergen in een kalenderafspraak, waar een ZIP-bestand in staat met een Word-document met afbeeldingen erin. Als de communicatie van de fraudeurs via die afbeeldingen verloopt is het als onderzoeker lastig om die afbeeldingen op te sporen. Soms communiceren zij zelfs in een andere taal om onderzoekers om de tuin te leiden. Het is dus zaak dat een zoekmachine alle informatie ook echt doorzoekt, ook de informatie die van nature niet doorzoekbaar is. ZyLAB ONE gebruikt geavanceerde technieken om bestanden uit te pakken, te vertalen en doorzoekbaar te maken voor de onderzoeker.

Zoeken in de data

Nadat de data volledig doorzoekbaar is gemaakt, biedt eDiscovery en ZyLAB ONE ook de mogelijkheid om geavanceerde zoektechnieken te gebruiken zodat er efficiënt en gericht gezocht kan worden naar bewijs van onregelmatigheden. In de volgende blog wordt er over deze zoektechnieken meer verteld.

Wilt u hier meer over weten? Kijk dan verder op onze website, of vraag een demo aan.

Intern onderzoek in de praktijk: doorzoekbaarheid van data

Alles op één plek

Geavanceerde software

Hoe doet ZyLAB ONE het?

Samengestelde bestanden

Zoeken in de data

Jelle Oorebeek

Blogserie Mededinging: 5 afspraken die kartels maken

Mededingingsonderzoek in de praktijk: zoeken in grote datavolumes

Subscribe to our latest insights

Intern onderzoek in de praktijk: doorzoekbaarheid van data

Alles op één plek

Geavanceerde software

Hoe doet ZyLAB ONE het?

Samengestelde bestanden

Zoeken in de data

Care to share?

Jelle Oorebeek

Keep learning

Blogserie Mededinging: 5 afspraken die kartels maken

Mededingingsonderzoek in de praktijk: zoeken in grote datavolumes

Subscribe to our latest insights