← Back to Stories

Twee KB-websites met middeleeuwse handschriften opgenomen in de Wayback Machine, april 2026

Op 15 december 2025 ging de stekker uit twee oudere KB-websites met middeleeuwse handschriften: manuscripts.kb.nl (MIM) en mmdc.nl. Om dit digitaal erfgoed openbaar en toegankelijk te archiveren hebben we ze ondergebracht in de Wayback Machine van Internet Archive, in totaal bijna 20.000 pagina’s. Het hele traject is uitgevoerd met hulp van een AI-assistent. Hieronder lees je het hele verhaal. Hiermee kun je ook reflecteren op de voor- en nadelen van het gebruik van de Wayback Machine & Internet Archive voor archivering van erfgoedcollecties.

Olaf Janssen (KB), 20 mei 2026


Op 15 december 2025 trok de KB de stekker uit twee websites met middeleeuwse handschriften. Middeleeuwse Verluchte Handschriften (manuscripts.kb.nl, MIM) bevatte beschrijvingen, afbeeldingen en verluchtingen uit zo’n 400 manuscripten uit de collecties van de KB en Huis van het Boek, voorheen Museum Meermanno-Westreenianum. Medieval Manuscripts in Dutch Collections (mmdc.nl) bevatte beschrijvingen van westerse middeleeuwse manuscripten tot circa 1550, geschreven in het Latijn of in een West-Europese volkstaal, bewaard in publieke en semipublieke collecties in Nederland.

Beide waren inhoudelijk verouderd en pasten niet meer in het huidige dienstenaanbod van de KB. Tijd om ze uit te faseren.

Screenshot of manuscripts.kb.nl homepage Screenshot of mmdc.nl homepage

Screenshots van de homepages van manuscripts.kb.nl (links) en mmdc.nl, kort voor de uitfasering op 15 december 2025.

Maar er waren een paar problemen:

  1. Er werd nog volop naar ze gelinkt. In onderzoekspublicaties, in catalogi van andere instellingen, op de Nederlandstalige Wikipedia, op Wikimedia Commons. Wie zo’n link na 15 december aanklikte, dreigde op op een 404 uit te komen. Geen manuscript, geen beschrijving, geen bron die iemand had geciteerd.
  2. Er zijn nog geen volwaardig alternatieven voor beide diensten. Zo bevat eCodicesNL nog niet alle 400 handschriften van de KB en Huis van het Boek. En collecties.kb.nl is nog niet zover dat de KB (via IIIF) haar eigen handschriftverluchtingen aldaar kan tonen.
  3. Niet iedereen kon zich vinden in de beslissing om deze sites offline te halen, omdat ze nog regelmatig gebruikt werden voor studie en onderzoek.

Wayback Machine

Om toch een publiek en gratis toegankelijke plek te hebben waar (pagina’s van) beide sites door de hele wereld nog geraadpleegd kunnen worden, bood de Wayback Machine (WBM) van Internet Archive - ondanks de onder aan dit artikel genoemde bezwaren - uitkomst. Gelukkig hadden we al eerdere ervaring met het onderbrengen van uitgefaseerde KB-websites, of representatieve delen daarvan, in dit webarchief. Een kort overzicht van de archiveringsacties uit het verleden:

Screenshot van KB-websites die in het verleden in de Wayback Machine zijn gearchiveerd, april 2026.

We gebruikten AI

In de weken voor de uitschakeldatum hebben we beide sites in kaart gebracht (gespiderd, gecrawld) en alle URLs in twee grote Excel-lijsten gezet. Vervolgens hebben we alle URLs één voor één naar https://web.archive.org/ gestuurd, waarna de webpagina gearchiveerd werd. Alles bij elkaar duurde dit een paar weken, de WBM is relatief traag met het archiveren van grote hoeveelheden URLs. En soms gingen dingen verkeerd en moesten dan opnieuw gedaan worden, wat zomaar weer een paar dagen extra doorlooptijd kon betekenen. Maar uiteindelijk is alles goed gekomen.

We hebben ons hierbij laten helpen door AI: Claude Code was niet alleen superhandig bij het schrijven van de benodigde plandocumenten, software en workflows, maar ook bij het uitvoeren hiervan, de algehele voortgangs-en procesbewaking en het na afloop controleren van de kwaliteit en integriteit van de resultaten was deze AI-assistent van onmisbare waarde. En laten we het schrijven van de bijbehorende documentatie op Github niet vergeten, dankzij AI een degelijke en eenvoudige klus!

manuscripts.kb.nl (MIM)

Voor manuscripts.kb.nl ging het hele archiveerproces redelijk rechttoe rechtaan. Een Python-spider liep alle 12.550 vindbare URL’s af en filterde daaruit 7.460 unieke pagina’s die het bewaren waard waren: de manuscriptbeschrijvingen, de beeldgalerijen, de literatuurverwijzingen, de inleidende teksten. Deze werden vervolgens met behulp van dit archiveerscript naar de WBM gestuurd. Eindstand: 7.460 op 7.460 succesvol gearchiveerd.

Dataset

Hier lees je het hele verhaal. Onder het kopje “Results & URL spreadsheet” vind je een dataset (Excel) met daarin alle “voor-en-na” gearchiveerde URLs.

manuscripts.kb.nl image gallery with text for 10 A 11, as archived in Wayback Machine on 12-12-2025

Screenshot van The Hague, MMW, 10 A 11 in de Wayback Machine (dd. 12-12-2025)

mmdc.nl

Het archiveren van mmdc.nl verliep in twee fases. In december 2025 hebben we 466 statische pagina’s, PDFs en afbeeldingen gearchiveerd. Daarbij kun je denken aan de homepage, de highlights, literatuurverwijzingen of nieuwsbrieven over handschriften en oude drukken. Deze fase verliep soepel en vlot, rechttoe rechtaan webarchivering.

Maar voor de bijna 12.000 catalogusrecords - webpagina’s met beschrijvende metadata van middeleeuwse handschriften, zie voorbeeld hieronder - ging het helaas wat minder soepel.

Screenshot van een catalogusrecord in mmdc.nl. Hier zie je een aantal metadatavelden van “The Hague, KB : ms. 70 E 4 - Tongeren fragments / Usuard”. Deze pagina was oorspronkelijk te vinden op https://mmdc.nl/static/site/search/detail.html?recordId=2#r2 . (link werkt sinds 15-12-2025 niet meer).

Deze pagina’s lieten zich niet 123 archiveren in de WBM. Dit kwam doordat het inhoud met behulp van JavaScript dynamisch, in twee aparte stappen in de pagina geladen werd. Een menselijke bezoeker merkt daar bijna niets van, maar de robot van de Wayback Machine kon er niet mee overweg, die zag steeds een vrijwel lege pagina, dus zonder alle beschrijvende metadatavelden. Daar kun je hier een voorbeeld van zien.

We hebben dit in drie stappen opgelost, wederom met behulp van onze AI-assistent:

  1. voor elke dynamische cataloguspagina hebben we m.b.v. een stuk code een platte HTML-equivalent gemaakt, die ook alle vormgeving (CSS) en het mmdc-logo (als base64) lokaal in zich heeft. Je kunt hier meer lezen over de gebruikte aanpak. Het resultaat was 11.738 volledig platte, ‘self-contained’ HTML-pagina’s, waarvan je hier een aantal voorbeelden kunt bekijken.
  2. We hebben deze platte HTML-pagina’s op een tijdelijke KB-webserver binnen het mmdc.nl-domein laten plaatsen. In plaats van de oorspronkelijke catalogus-URLs met syntax https://mmdc.nl/static/site/search/detail.html?recordId={N} waren de pagina’s nou dus tijdelijk beschikbaar op https://mmdc.nl/wbm/site/search/catalog-page-{N}.html
  3. Daarna hebben we deze bijna 12K pagina’s met behulp van dit archiveerscript door de Wayback Machine laten archiveren. Dit duurde wederom even, maar in april 2026 was uiteindelijk de hele catalogus gearchiveerd: 11.738 op 11.738 pagina’s.

Datasets

Hier lees je het hele verhaal. Onder het kopje “Results & URL spreadsheet” vind je een dataset (Excel) met daarin alle “voor-en-na” gearchiveerde URLs. In het tabblad catalog-pages-full-metadata vind je ook de volledige mmdc-catalogus (11.738 records) als dataset.

Catalog page 2: Tongeren fragments / Usuard, as archived in Wayback Machine on 02-04-2026

Screenshot d.d. 02-04-2026 van de in de Wayback Machine gearchiveerde pagina “The Hague, KB : ms. 70 E 4 - Tongeren fragments / Usuard”. Deze is beschibaar op URL https://web.archive.org/web/20260402123710/https://mmdc.nl/wbm/site/search/catalog-page-2.html

Overzichtje van relevante URLs

Bezwaren bij het gebruik van de Wayback Machine & Internet Archive

Het gebruik van Internet Archive voor het archiveren van KB-spulletjes is niet ideaal, er zitten naast bovengenoemde voordelen ook wat nadelen aan. Je kunt daarbij denken aan:

1) Het Internet Archive is een Amerikaanse particuliere non-profitorganisatie en geen publieke erfgoedinstelling die wordt gefinancierd met geld van de overheid. Als een organisatie als de KB het Internet Archive een site wil laten archiveren, dan hoort die eigenlijk gebruik te maken van hun betaalde dienst die daarvoor in het leven is geroepen: Archive-IT. Dat is dus geen gratis service en je zal hier een overeenkomst voor af moeten sluiten met alle juridische plichten van dien.

  • Reactie auteur: Ik werd pas nadat beide sites gearchiveed waren op Archive-IT gewezen door een KB-collega. Iets om in het achterhoofd te houden voor de volgende KB-archiveringsslag in de WBM.

2) Als je als KB het Internet Archive de “opdracht” geeft content online te zetten, ben je nog altijd zelf aansprakelijk voor de potentiële auteursrechtschendingen als gevolg van die openbaarmaking. Een openbaarmaking die in Nederland toegankelijk is, valt onder het Nederlandse auteursrecht, waar we (zoals in alle EU-landen) geen fair use kennen, zodat eerder sprake is van copyright-inbreuk. Daarnaast is bij het Internet Archive vaak zichtbaar wie degene is geweest die content heeft aangeleverd. Het juridische risico is daarmee nog net zo groot als wanneer wij zelf content bewaren.

  • Reactie auteur: Het risico op potentiële auteursrechtschendingen als gevolg van de openbaarmaking van mmdc.nl en MIM via de WBM schat ik erg klein/verwaarloosbaar in. MIM was al jaren onder CC0 (metadata) en PD-mark (afbeeldingen) beschikbaar. Voor mmdc.nl wellicht iets met databankrecht, maar dat berust bij de KB zelf. En de potentiële auteursrechtschendingen wegen niet op tegen de voordelen van het behouden van beide sites in de WBM en het offline gaan van beide diensten.

3) Het Internet Archive garandeert als Amerikaanse particuliere non-profitorganisatie geen eeuwig en duurzaam behoud en is ook niet opgericht om, zoals erfgoedinstellingen, publieke culturele belangen van Nederlands erfgoed te dienen.

  • Reactie auteur m.b.t. “Internet Archive garandeert geen eeuwig en duurzaam behoud”: Wat dat betreft is de KB met het offline halen van mmdc.nl, MIM en de andere boven in dit artikel genoemde voormalige KB-sites, in goed gezelschap! Sterker nog, ik denk dat Internet Archive en hun WBM duurzamere opties kunnen zijn dan de gemiddelde erfgoedinstelling in Nederland, ondanks hun promessen van “duurzaam behoud voor de eeuwigheid”.