Veelgestelde vragen

Misschien is de titel veelgestelde vragen een beetje misleidend, aangezien het niet zo is dat onze inbox volstroomt van vragen. Dus tot die tijd hebben we een leuk verhaaltje bij elkaar geflanst. Grote kans daarom dat jouw vraag hier nog niet tussen staat, dus, heb je een vraag, opmerking of een leuk idee? Schroom niet, en stuur een tweetje naar @nieuwindekamer, of een mailtje naar info [at] nieuwindekamer.nl.

Hoe wordt een nieuw woord gevonden?

Onze robot heeft meer dan 36.000 plenaire verslagen (oftewel, de transcripties van debatten in de hoofdzaal van de Tweede Kamer) doorgelezen, en telkens als hij een nieuw woord tegenkwam, deze aan ons woordenboek toegevoegd. Zo hebben we nu een woordenboek van bijna 500.000 unieke woorden die stuk voor stuk uitgesproken zijn in de Tweede Kamer.

Vervolgens kijkt onze robot voortdurend of er een nieuw debat gaande is in de Tweede Kamer. Als hij er één vindt, leest hij live mee, en herhaalt ‘ie het proces van kijken of het woord wat hij tegenkomt al in ons woordenboek staat. Zo niet? Gotcha! Een nieuw woord.

Tweeten jullie alle woorden die jullie vinden?

Nee. Voordat we een tweetje sturen, gebeuren er nog veel meer stappen dan simpelweg het vinden van een nieuw woord. Eerst dubbelchecken we of een woord daadwerkelijk gezegd is door het in een andere bron op te zoeken, en kijken we of het woord toch écht niet eerder gezegd is.

Dan wordt opgezocht wie het eigenlijk zei, van welke partij diegene is, en wat hun Twitterhandle is zodat we hen kunnen lastigval-… taggen. Ook wordt er een clipje van het debat opgezocht, zodat je kan zien en horen hoe het gezegd werd. Als laatste wordt er een leuk plaatje met een mooie quote gemaakt, gewoon voor de leuk.

Mislukt één van deze stappen? Dan wordt het niet getweet. Zelfs dan zijn er nog veel meer woorden dan wat jij op je tijdlijn voorbij wilt zien komen. Gemiddeld zijn het er ongeveer driehonderd per week, en dat willen we jullie niet aan doen. Dus probeert onze robot de leukste eruit te plukken, en spelfouten en enge afkortingen eruit te filteren, en deze dan eindelijk te tweeten. Dit gebeurt allemaal automatisch.

Wat is een woord?

Daar zou je natuurlijk een diep filosofisch boek over kunnen schrijven, maar voor onze robot heeft het een vrij simpele definitie: een woord is een opeenvolging van karakters omringd door spaties of interpunctie. Dit betekent ook dat door onze robot “sterk” en “sterke” als twee verschillende woorden worden gezien, terwijl ze niet allebei een plekje in het woordenboek krijgen.

Waarom hebben jullie een spelfout getweet?

Het is niet onze schuld, echt niet! Omdat de plenaire verslagen live worden opgeschreven tijdens debatten in de Tweede Kamer glipt er nog wel eens een spelfoutje doorheen bij de griffie. Deze wordt dan hoogstwaarschijnlijk later aangepast, maar onze robot kijkt maar één keer naar de verslagen – en doet dat zo snel mogelijk nadat het debat is afgelopen.

Onze robot kan het verschil niet zien tussen ‘echte’ nieuwe woorden en woorden die verkeerd geschreven zijn. Zo kan het dus zijn dat er een ‘nieuwe’ spelfout doorheen glipt, ondanks dat we de meest voorkomende spelfouten proberen weg te filteren.

Welke bronnen gebruiken jullie?

Er zijn drie websites die onze robot dagelijks refresht. Allereerst is er officielebekendmakingen.nl, de website die al sinds 1995 alle handelingen publiceert. De naam suggereert het al, maar dit zijn die officiële handelingen die gecheckt zijn en dus vrijwel geheel foutlous zijn. Deze gebruiken wij om het woordenboek van woorden die al eerder gezegd zijn bij te houden. Er is enkel één klein probleem: het duurt ongeveer een maand voordat debatten op deze website verschijnen. Zoveel geduld hebben wij niet.

Dus is er ook tweedekamer.nl, waar razendsnel de transcripties verschijnen van debatten die zelfs nog bezig zijn. Zij beloven dat binnen vier uur een gesproken woord geschreven op hun website staat. Dit is de bron die we dus gebruiken om nieuwe woorden te vinden.

Voor de clipjes van debatten gebruiken we debatgemist.tweedekamer.nl, de tweelingbroer van debatdirect.tweedekamer.nl, waar je live debatten kan volgen. Hierop verschijnen de volledige beelden van debatten binnen tien uur na de afloop, inclusief transcriptie. Dit is dus de voornaamste tijdsbarrière in het zoeken van nieuwe woorden.

Waarom is het beginpunt in 1995?

Het was meer een keuze uit noodzaak dan uit vrije wil, helaas. De Tweede Kamer praten natuurlijk al sinds 1815 over de stand des vaderlands, en vanaf dag één werden alle debatten al netjes gedocumenteerd in het Staatsblad. Helaas kenden ze toen nog geen wifi, en werd het dus allemaal enkel opgeschreven. Dat is heel moeilijk leesbaar voor onze zoek-robot, en de technologie die daarvoor wel bestaat is vaak onbetrouwbaar. We kunnen dus simpelweg nog niet zo ver terug in de tijd gaan.

Gelukkig werden de debatten vanaf 1995 ook digitaal beschikbaar gemaakt, die onze robot met gemak razendsnel kan doorlezen. Als je je bedenkt dat de meeste mensen nog niet dagelijks aan het internetten waren in die tijd, was de Tweede Kamer toch redelijk snel up-to-date.

Waarom worden woorden in commissies niet meegerekend?

Commissieverslagen worden niet op dezelfde manier gepubliceerd als plenaire verslagen. Ze verschijnen wel, op dezelfde manier als plenaire verslagen, met ongeveer een maand vertraging op officielebekendmakingen.nl. Deze zijn dus wel makkelijk doorzoekbaar voor onze robot, maar niet bruikbaar als we nieuwe woorden willen opzoeken zonder vertraging. Voor plenaire verslagen gebruiken we daarvoor tweedekamer.nl.

Plenaire verslagen worden ‘live’ geüpdate op die website, en zijn heel makkelijk doorzoekbaar voor onze robot omdat ze een vaste datastructuur aanhouden. Commissieverslagen worden echter door de verschillende voorzitters van verschillende commissies allemaal op hun eigen manier opgesteld en gepubliceerd. Hierdoor heeft bijna elke commissie een andere datastructuur, en is het immens veel moeilijker om dat (hobbymatig) te automatiseren.

We hadden ervoor kunnen kiezen om toch ook naar commissieverslagen via officiëlebekendmakingen.nl te kijken, maar dan loop je al snel tegen een paradox aan. Als een woord in week X gezegd wordt in een commissie, duurt het een maand voordat onze robot die in z’n woordenboek kan opnemen. Als het woord in de tussentijd in de plenaire zaal gezegd wordt, lijkt het daarom voor onze robot een ‘nieuw’ woord.

Dan zouden we voor alle nieuwe woorden die maand vertraging aan moeten houden, en omdat we graag in de buurt van de actualiteit blijven, hebben we er voor gekozen commissievergaderingen buiten beschouwing te laten en enkel te focussen op de plenaire zaal, de ‘hoofdzaal’ van de Tweede Kamer.

Wat zijn jullie toekomstplannen?

Één van onze ambitieuze plannen is om te proberen ons woordenboek uit te breiden naar verder terug in de geschiedenis, hopelijk helemaal terug tot het begin van de Staten-Generaal in 1815. Dit is een flinke klus, aangezien er heel veel veranderd is aan de manier waarop de verslagen geschreven worden in die tweehonderd jaar. Het zou ons woordenboek maarliefst tien keer zo groot maken, en dus veel completer.

Dit is ook heel leuk voor ons tweede en nog ambitieuzere idee: een zoekmachine waarin je voor elk woord kan zoeken wanneer het voor het eerst gezegd is, door wie, in welk debat en nog veel meer. Of het lekker weer was op die dag? Wat de politieke actualiteit was op dat moment? Een grafiek van het gebruik van het woord over de jaren heen? Alles kan. Zo kan je gemakkelijk door onze parlementaire geschiedenis zoeken, en de leukste inzichten erin vinden. Welk woord was er eerder… friet of patat?

Wat doen we met je gegevens?

De website Nieuw in de Kamer maakt geen gebruik van functionele of tracking-cookies, wel van analytische cookies. Er wordt gebruik gemaakt van Google Analytics om het websitegebruik te onderzoeken. Deze statistieken geven ons onder meer inzicht in hoe vaak we worden bezocht en waar we onze website kunnen verbeteren. Zo kunnen wij de ervaring met onze websites voortdurend optimaliseren.

Hierbij wordt het advies van de Autoriteit Persoonsgegevens gevolgd: de IP-adressen worden geanonimiseerd, er worden geen statistieken met Google gedeeld en er is een verwerkersovereenkomst afgesloten met Google. Meer informatie is beschikbaar in ons privacybeleid.