for English, please see below
Dit is de Nederlandse woordenlijst van Stichting OpenTaal. Mits aan volledige bronvermelding wordt gedaan en de licenties worden gerespecteerd, is deze lijst vrij te gebruiken. De exacte voorwaarden zijn te vinden in het bestand LICENSE.txt. Lees deze goed door.
Deze woordenlijst is samengesteld door ontelbare individuele bijdragen, specifieke delen uit bronnen zonder auteursrecht en intensieve eindredactie. De woordenlijst heeft van de Taalunie het Keurmerk Spelling gekregen. Dit betekent dat de woorden in deze woordenlijst voldoen aan de officiële spelling.
Het Keurmerk Spelling voor deze woordenlijst is van medio 2017, 2018. Sinds eind 2018 wordt dit keurmerk niet meer uitgegeven en zal bij volgende versies van deze woordenlijst niet meer van toepassing zijn.
De woordenlijst bestaat, naast de documentatie en licentie, uit de volgende bestanden:
wordlist.txt
datetimeversion.txt
Deze zijn aangevuld met een aantal hulpbestanden:
elements/basiswoorden-gekeurd.txt
elements/basiswoorden-ongekeurd.txt
elements/flexies-ongekeurd.txt
elements/wordparts.tsv
elements/corrections.tsv
elements/romeinse-cijfers.txt
elements/wordlist-ascii.txt
elements/wordlist-non-ascii.txt
De complete woordenlijst is te vinden in het
UTF-8 Unicode tekstbestand genaamd
wordlist.txt. Elke regel bevat een apart woord en in totaal zijn
dat er meer dan 400.000 woorden. Let op, een woord kan een spatie bevatten en
dat komt meer dan 4.000 keer voor. Alle woorden zijn alfabetisch gesorteerd met
sort
. Dit bestand is
samengesteld uit de volgende drie bestanden.
De datum, de tijd en het versienummer van al deze bestanden is te vinden in datetimeversion.txt.
De door de Taalunie gekeurde
basiswoorden zoals tafel
zijn te vinden in
elements/basiswoorden-gekeurd.txt. Dit zijn
er ongeveer 200.000 stuks. Ongekeurde basiswoorden, eigennamen zoals Jansen
,
toponiemen zoals Schin op Geul
en samenstellingen met een eigennaam zoals
Facebookgroep
zijn in het bestand
elements/basiswoorden-ongekeurd.txt te
vinden. Dit zijn er ongeveer 41.000 stuks. In het bestand
elements/flexies-ongekeurd.txt zijn er
ongeveer 170.000 ongekeurde
flexies zoals stoeltjes
te
vinden.
Let op dat deze verdeling in oude versies van deze woordenlijst niet heel strikt was. Daardoor kunnen in de gekeurde basiswoorden kunnen ook eigennamen en flexies zitten. Dit gaat in een volgende major release worden opgelost omdat er dan vanaf een nieuw databasesysteem wordt gewerkt. Bijkomend voordeel is dat er dan ook informatie over woordtypen beschikbaar komt. Tot die tijd is het even behelpen met deze verdeling.
Er is een apart bestand met delen van woorden die een spatie bevatten. Dit is
een TSV-bestand met in de
tweede kolom een or meer woorden waar dit deel vandaag komt. Indien dat meerdere
woorden zijn, zijn die gescheiden door een puntkomma. Dit bestand heet
elements/wordparts.tsv en bevat 1.000 delen van
woorden die vaak gebruikt worden. Een voorbeeld is hoc
van ad hoc;post hoc
.
Let op, in dit bestand staan ook woorden in die niet in de woordenlijst staan
maar in verkorte vorm worden gebruikt. Voorbeelden zijn voor-
uit
voor- en nadelen
en -zus
in tweelingbroer of -zus
.
Ook is er een bestand met 16.000 fout gespelde woorden. Dit is elements/corrections.tsv en is ook in TSV-formaat. In de tweede kolom staan nul of meerdere correcties, gescheiden met een puntkomma. De meest relevante correctie staat dan vooraan.
Verder staan in het bestand
elements/romeinse-cijfers.txt 4.000 Romeinse
cijfers. Een versie van de woordenlijst in
ASCII is te vinden in
elements/wordlist-ascii.txt. Dit is geen
extended ASCII, dus bevat deze lijst geen woorden met é
, ï
, etc. Let op:
deze lijst heeft geen woorden waar accenten van letters zijn verwijderd! Het
woord café
zit niet in deze lijst maar cafe
dus ook niet. Neem
contact op als het wenselijk is woorden van accenten te strippen en op te nemen.
Woorden met niet-ASCII-karakters zijn te vinden in elements/wordlist-non-ascii.txt. Neem contact op als ook een woordenlijst in exteded ASCII gewenst is.
Het is mogelijk om in een volgende versie meerdere bestanden op te nemen, bijvoorbeeld bestanden met woorden:
- die t.o.v. een vorige versie niet meer in de lijst voorkomen
- die een flexie zijn met bijbehorende basisvorm
- die een basiswoord zijn met bijbehorende flexies
- die alternatieven van andere woorden zijn
- die verouderd of archaïsch zijn
- die om verwarring te voorkomen niet geschikt zijn voor spellingcontrole
Zie voorlopig de directory experimenteel
. Het is ook mogelijk om
maatwerkbestanden in een versie op te nemen.
In het huidige tijdperk van Unicode is deze woordenlijst voorzien van karakters
die niet deel uitmaken van (extended) ASCII. Voorbeelden hiervan
zijn cijfers in super- en subscript zoals een ₂
in CO₂-emissie
en ³
in
m³
. Let op, veelvoorkomende karakters zoals é
, ë
en ï
maken wel deel uit
van extended ASCII en Unicode maar niet van de basis ASCII.
Een ander project van OpenTaal biedt histogrammen van de letterfrequenties van de woordenlijst. Wanneer deze is bijgewerkt zal er hier een link naar worden gemaakt.
Karakters die worden gebruikt zijn:
a
t/mz
enå
ç
ñ
A
t/mZ
enÅ
ä
ë
ï
ö
ü
enâ
ê
î
ô
û
á
é
í
ó
ú
enà
è
0
t/m9
en²
³
₂
'
.
-
/
+
&
@
€
Besturingssystemen bieden softwarepakketten die deze woordenlijst installeren en automatisch updaten. Voorbeelden hiervan zijn:
Na installatie is de inhoud van wordlist.txt
beschikbaar als het bestand
/usr/share/dict/dutch
of via de symbolische link
/usr/share/dict/nederlands
Voor andere besturingssystemen, zie https://repology.org/project/dutch/versions
Deze woordenlijst moet niet gebruikt woorden voor een (zelfgebouwde) spellingcontrole. Het controleren van spelling en aanbieden van suggesties is in het algemeen en vooral voor het Nederlands verre van eenvoudig. Gebruik hier speciale software voor zoals Hunspell of Nuspell. In veel software zoals Chrome, Firefox, Thunderbird, LibreOffice en Adobe-producten is dit al geïntegreerd.
OpenTaal maakt hiervoor de Nederlandse spellingcontrole, zie https://github.com/OpenTaal/opentaal-hunspell voor meer informatie.
Voor Android is er een toetsenbord dat gebruik maakt van deze woordenlijst. Zie dit artikel op onze website voor meer informatie.
Of een woord wel of niet wordt geaccepteerd in Wordfeud of bepaalde andere woordspellen is niet de verantwoordelijkheid van Stichting OpenTaal. Hiervoor kan het beste contact opgenomen worden met TaalTik.
Help ons vrije en open Nederlandse schrijftools te ontwikkelen. Doneer belastingvrij aan onze ANBI via https://www.opentaal.org/vrienden-van-opentaal of contacteer ons als je woordenlijsten of databasevaardigheden te bieden hebt.
This is the Dutch word list by Stichting OpenTaal. As long as full attribution is provided and the licenses are respected, this list can be used freely. The exact conditions can be found in the file LICENSE.txt. Please, read these carefully.
This word list has been compiled from countless individual contributions, specific parts from sources without copyright and intense final editing. This list has received from the Dutch Language Union (Taalunie) the Quality Mark Spelling (Keurmerk Spelling). This means that the words in this list conforms to the official spelling.
The Quality Mark Spelling for this word list has been given in 2017/2018. This quality mark has stopped since the end of 2018 and will not apply to future releases of this word list.
Please, see the relevant section in Dutch
Please, see the relevant section in Dutch
Please, see the relevant section in Dutch
Operating systems offer software packages which install this word list and update it automatically. Examples of this are:
After installation, the contents of wordlist.txt
will be available as the file
/usr/share/dict/dutch
or via the symbolic link
/usr/share/dict/nederlands
For other operating systems, see https://repology.org/project/dutch/versions
This word list should not be used for (self made) spell checking. Checking spelling and offering suggestions in general and especially for Dutch is far from easy. Use special software for this such as Hunspell or Nuspell. This is already integrated in software such as Chrome, Firefox, Thunderbird, LibreOffice and Adobe products.
OpenTaal supports Dutch for these spell checkers. That is partly based on this word list but also on many custom rules, conjugations and other special cases. Additionally, these optimized spell checkers are much faster than own implementations. In the second quarter of 2020, a new version of the Dutch support for these spell checkers will be published.
OpenTaal provides the Dutch spelling checker for this, see https://github.com/OpenTaal/opentaal-hunspell for more information.
A keyboard for Android which uses this word list has been developed. Please, see this article on our website for more information.
Whether or not a word is accepted in the Dutch version of Wordfeud or certain other Dutch word games is not the responsibility of Stichting OpenTaal. For this, please contact TaalTik.
Please, help us create free and open Dutch writing tools. Donate tax free to our foundation at https://www.opentaal.org/vrienden-van-opentaal or contact us is you have word lists to database skills to offer.