Skiplinks

  • Hoofdcontent
  • Linkermenu
DBNL Logo
DBNL Logo

Hoofdmenu

  • Literatuur & Taal
    • Auteurs
    • Beschikbare titels
    • Literatuur
    • Taal
    • Limburgse literatuur
    • Friese literatuur
    • Surinaamse literatuur
    • Zuid-Afrikaanse literatuur
  • Selecties
    • Onze kinderboeken
    • Basisbibliotheek
    • Tijdschriften/jaarboeken
    • Naslagwerken
    • E-books
    • Publiek Domein
    • Calendarium
    • Atlas
  • Gebruiksvoorwaarden
    • Hergebruik
    • Disclaimer
    • Informatie voor rechthebbenden
  • Over DBNL
    • Over DBNL
    • Contact
    • Veelgestelde vragen
    • Privacy
    • Toegankelijkheid
  • 1940-1945
  • Amoureuze en scabreuze liederen in de Gouden Eeuw
  • Antwerpen
  • Bibliografie
  • Dialecten
  • De donkere dagen van december
  • Elckerlijc
  • Het embleem
  • Geavanceerd zoeken in documenten op je eigen PC
  • Jeugdliteratuur: boekjes om te leren lezen, van hanenboek tot boom-roos-vis
  • De rederijkers
  • Ridderverhalen
  • Schrijvende vrouwen
  • Het sonnet
  • Tachtigjarige Oorlog in de literatuur
  • Tijdschriften

 

  • DBNL
  • 
  • Thema's
  • 
  • Geavanceerd zoeken in documenten op je eigen PC

Geavanceerd zoeken in documenten op je eigen PC

Deze pagina hoort bij het boekje Eerste Hulp Bij e-Onderzoek voor studenten in de geesteswetenschappen. Dat boekje kun je hier gratis downloaden.

Eerste Hulp Bij e-Onderzoek gaat grotendeels over slim zoeken op internet met behulp van zogenoemde zoekoperatoren. Maar er staat ook in dat je data nog geavanceerder kunt doorzoeken als je gebruikmaakt van indexeringssoftware. Indexeringssoftware zet alle woorden in bijvoorbeeld een artikel, boek of rapport in een index. Dat kan één boek, artikel of rapport zijn, maar ook duizenden tegelijk. Via zo’n index kun je de hele collectie vervolgens tegelijk doorzoeken, met zoektrucs die op internet (nog) niet mogelijk zijn. Of je zoekt per index in verschillende deelcollecties, bijvoorbeeld thematisch.

Om te onderzoeken of deze manier van zoeken iets voor jou is, heb je data nodig. De DBNL is zo vriendelijk geweest om op deze pagina enkele datasets klaar te zetten, bronnen die overigens ook elders op de site staan, maar die hier in vier zipbestanden bij elkaar zijn gezet. Ze zijn per set in één keer te downloaden. Die sets kun je vervolgens indexeren.

Zoals in Eerste Hulp Bij e-Onderzoek al ter sprake komt, bestaan er diverse indexeringstools. Goede en betaalbare (met gratis testversies) zijn onder andere: dt-Search, Copernic search, X1 en (voor Apple-gebruikers) Foxtrot. Er bestaan ook gratis indexeringstools, maar die kunnen veel minder. Een goed maar duur pakket voor meerdere gebruikers is Isys Workgroup.

Om het overzichtelijk te houden, gaan we hier uit van één tool: dt-Search. Meer informatie over die tool vind je hier. En hier kun je een versie downloaden die je 30 dagen lang gratis kunt uitproberen.

dt-Search beschikt ook over een zogenoemde spider of webcrawler, een robot die hele websites kan indexeren (ook grote). Over het nut van zo’n spider staat meer in Eerste Hulp Bij e-Onderzoek.

Stap 1. Download de testversie van dt-Search of een ander indexeringsprogramma.

Stap 2. Download een of meer van de onderstaande DBNL-datasets en zet ze in een map die je bijvoorbeeld ‘Mijn digitale bibliotheek’ noemt. Je kunt deze test natuurlijk ook uitvoeren met data die al op je pc staan. De meeste indexeringstools kunnen honderden bestandsformaten aan.

  1. BIOGRAFISCH
  2. ENKELE TIJDSCHRIFTEN
  3. JAARBOEKEN LEIDSE MAATSCHAPPIJ (1766-1939
  4. LITGESCHIEDENIS

Stap 3. Maak een aparte map voor de indexen die je gaat maken. Noem die bijvoorbeeld ‘Indexen dt-Search’.

Stap 4. Voor je een index gaat maken moet je eenmalig een aantal instellingen in dt-Search aanpassen. In deze pdf staat hoe.

Stap 5. Maak nu een index op een dataset van jezelf of van de DBNL. In deze pdf staat hoe.

Nu je een eerste index hebt gemaakt, kun je gaan zoeken. Dat doe je bij dt-Search via het tabblad Search of met de toetscombinatie Ctrl + S. Zoals ook al in Eerste Hulp Bij e-Onderzoek staat,kun je nu zoekopdrachten uitvoeren die bij de grote zoekmachines op internet, zoals Google, (nog) niet mogelijk zijn.

Zelf gebruik ik vooral deze functies: 

  1. de proximity search. Bijvoorbeeld: geef mij kroost maximaal 5 (of 10 of 20) posities van vrouw. Dit scheelt, in vergelijking met Google, een hoop gedoe met asterisken.

    Een van de resultaten:

  2. wildcards (? en *) aan de voorzijde van een of meer woorden. Voorbeelden:
    • met *heid vind je alle woorden die hierop eindigen;
    • met *fiets* vind je niet alleen bakfiets en fietstas, maar ook aanfietsen, bromfietshelm, enzovoorts.

Stel, je wilt weten welke varianten er bestaan van de uitdrukking met een aan zekerheid grenzende waarschijnlijkheid. Als je een website hebt laten indexeren met een webcrawler of je benadert een eigen verzameling bronnen met behulp van een indexeringstool, dan vind je het antwoord op deze vraag heel snel met bijvoorbeeld deze zoekopdracht: “*heid grenzende *heid” OR “grenzende *heid”

Resultaten:

  • aan preutschheid grenzende fierheid (vroegste vindplaats 1816);
  • aan waanzin grenzende droefheid (1832);
  • aan wanhoop grenzende donkerheid (1836);
  • aan onverschilligheid grenzende bedaardheid (1857);
  • aan vermetelheid grenzende stoutmoedigheid (1868).

3. Met indexeringssoftware kun je zien welke ocr-fouten er in een bestand voorkomen. Nu moet je allerlei combinaties van wildcards verzinnen om dingen te vinden in onder meer Early Dutch Books Online (EDBO) en de Historische Kranten van de Koninklijke Bibliotheek. Dat komt doordat je niet rechtstreeks in de index van die sites mag kijken. Als je via een webcrawler in bijvoorbeeld EDBO kijkt, of je zet die collectie op je eigen computer en je maakt er een index op, dan kan dit wel.

Het woord comcommcrtyd, snel gevonden door in een eigen index op EDBO te kijken.

Er zijn nog allerlei andere zoekmogelijkheden, maar daar kom je snel genoeg achter als je deze of een andere indexeringstool gaat testen.

Succes!

Ewoud Sanders