Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

dokumentasjon #1

Open
eiriks opened this issue Jan 27, 2016 · 1 comment
Open

dokumentasjon #1

eiriks opened this issue Jan 27, 2016 · 1 comment

Comments

@eiriks
Copy link

eiriks commented Jan 27, 2016

Hei, flott opplegg du hart her. Dette er et målepunkt for norsk språk jeg gjerne kan inkorporere i ting jeg holder på med (automatisk analyse av nettaviser f.eks). For at det skal være enkelt trengs noe dokumentasjon. Ting jeg lurer på er f.eks. hva som er i ordlistene i /private/ mappen, hvordan disse er satt sammen, og en (røff eller konkret) beskrivelse av hvordan du gir ord (eller hele tekster) vekt for hvor akademisk ordet (eller teksten som helhet) er. Mitt mål vil være å koke det ned til en funksjon som gir en score for en tekst, event med ekstra data for enkeltord ord deres individuelle score. Høres dette ut som en gjennomførbar idé?

Er dette noe du kan knote ned i en readme her?
(jeg vil, i den grad jeg endre opp med å bruke dette - som jeg gjerne vil-, skrive det om til python)

@arashsa
Copy link
Owner

arashsa commented Jan 27, 2016

Hei Erik. Det som er i private er en akademisk ordliste, og en rekke setninger som fungerer som eksempler på hvordan disse blir brukt. Det er brukt en rekke statistiske mål for å kompilere listen fra et stort korpus av akademiske tekster (tekstene er fra DUO - digitale publikasjoner ved Universitetet i Oslo). Du kan finne de statistiske metodene her: https://github.com/arashsa/GardnerDavies2

Som du kan se er de metodene skrevet i Python, og du kan godt bruke de som du vil. Jeg har dessverre ikke tid til å skrive noen utfyllende readme for noen av prosjektene enda, men kommer tilbake til deg når jeg har litt tid til å rydde opp i prosjektene mine og dokumentere bedre. Jeg har planer om dette på et senere tidspunkt. Du kan se prosjektet online her: http://www.tekstlab.uio.no:4000/

Lykke til med prosjektet. Høres spennende ut, og det er absolutt gjennomførbart. Jeg vil tro du kan få gode resultater ved å bruke http://scikit-learn.org/stable/ (maskinlæringspakke til Python). Med en slik pakke kan du lære opp, kanskje ved å bruke ordlisten som ligger i private mappen på mitt prosjekt, til å gjenkjenne akademiske tekster og gi en score.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants