Skip to content

machinereading/KoreanNERCorpus

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 

Repository files navigation

KoreanNERCorpus

origianl 폴더에는 HLCT 2016에서 제공한 데이터셋 원본이 있습니다.

modified 폴더에는 평가셋의 오류 41곳을 수정한 데이터셋이 있습니다.

dev_chg.txt에는 몇번째 줄을 수정하였는지와 어떤 정보를 수정하였는지에 대한 정보를 포함하였습니다.

실험결과, F1 score 기준 기존 데이터를 사용했을 때 보다 개체명 인식 결과의 정확도가 1.6% 향상한 것을 확인하였습니다.

다음은 수정한 오류의 예시입니다.

  • 명백히 개체명인데 태그가 되어있지 않은 경우. 예를 들어 ‘LG:OG는 <7일:DT> 잠실구장에서 계속된’에서 잠실구장을 LC로 수정하였다.
  • POS 태그 수정. 예를 들어 ‘태어난’이 ‘태 NNP 어 NNP 난 NNP’로 태그 되어있어 ‘태어나 VV ㄴ ETM’으로 수정하였다.
  • 개체명이 아닌데 태그 되어있는 경우. 예를 들어 ‘비디오점 <체인 씨네타운:OG>이’에서 체인은 개체명이 아닌데 씨네타운 기관명에 포함되어있어 O로 수정하였다.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published