Hunspell-is er hugbúnaður sem les inn gagnabanka íslensku Wikiorðabókarinnar og útbýr:
- orðabók fyrir villuleitarforritið Hunspell sem hægt er að nota m.a. með LibreOffice, Firefox, Thunderbird og Google Chrome. Hvert orð hefur skráðan orðflokk og beygingarlýsingu ef við á.
- samheitaorðabók fyrir LibreOffice.
Hunspell-is er samvinnuverkefni og samskipti fara fram á póstlista (sjá einnig á vefnum).
Orðabækurnar fylgja með LibreOffice. Þær má einnig finna stakar í kóðasafni LibreOffice eða í pakkasafni Debian stýrikerfisins.
Yfir 300 beygingarreglur nafnorða, sagnorða og lýsingarorða eru skráðar í íslensku Wikiorðabókinni og eru þær allar fluttar inn í hunspell-is ásamt þeim orðum sem nota reglurnar. Sem dæmi er hægt að greina orðið „á“ með skipuninni
echo á | hunspell -m -d dicts/is
sem skilar
á st:á po:fs
á st:eiga po:so
á st:ær po:no is:2eó
á st:ær po:no is:3eó
á st:á po:no
á st:á po:no is:3eó
á st:á po:no is:2eó
og sjá að það tilheyrir þremur orðflokkum. Orðið er í þolfalli eða þágufalli þegar það þýðir kind en ef átt er við fljót koma þrjú eintöluföll til greina. Nefnimyndin (e. lemma) er einnig sýnd.
Forritið chmorph
má nota til að umbreyta texta, t.d. setja sögn í þátíð:
echo "Strákurinn kallar á mömmu sína." > setning.txt
chmorph dicts/is.aff dicts/is.dic setning.txt "germynd-framsöguháttur-nútíð:hann" "germynd-framsöguháttur-þátíð:hann"
og útkoman verður
Strákurinn kallaði á mömmu sína.
Ef orðið er rangt skráð í íslensku Wikiorðabókinni skal lagfæra orðið þar. Orð getur einnig verið rangt skráð í orðalistanum sem notaður er til uppfyllingar. Ef svo er má hafa samband og láta fjarlægja orðið.
Eftirfarandi skipanir sýna hvernig orðabækurnar eru útbúnar á Debian og Ubuntu stýrikerfum.
# install dependencies
sudo apt-get install bzip2 gawk bash ed coreutils make wget hunspell libmythes-dev git python3 python3-pip
sudo locale-gen is_IS.UTF-8
sudo LC_ALL=is_IS.utf8 pip3 install git+https://github.com/earwig/mwparserfromhell@87e0079512f3d85813541dc97a240713fc0b33c9
# fetch hunspell-is
git clone https://github.com/nifgraup/hunspell-is
cd hunspell-is
# generate the dictionary & thesaurus
make
# run correctness test on generated files
make check
# generate LibreOffice & Firefox extensions
make packages
Orðabækurnar, líkt og íslenska Wikiorðabókin, eru gefnar út skv. CC BY-SA 3.0 leyfinu. Hunspell-is hugbúnaðurinn er gefinn í almenning. Orðabækurnar notast við orðalista til uppfyllingar sem var unninn af Orðabók Háskóla Íslands ásamt Reiknistofnun Háskóla Íslands á ofanverðum tíunda áratug síðustu aldar. Sá orðalisti var gefinn út í almenningseigu (e. public domain).