Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[제안]원본 코퍼스를 수정하는 코드를 배포하는 것으로 말뭉치를 공유하는 방법 #3

Closed
mrchypark opened this issue Nov 30, 2018 · 16 comments
Assignees
Milestone

Comments

@mrchypark
Copy link

mrchypark commented Nov 30, 2018

안녕하세요, 좋은 내용 공유해주셔서 감사합니다.

저는 부족한 개인자원으로 한글 데이터 공유를 위한 단체인 ForkonLP를 운영하고 있는 박찬엽입니다.

코퍼스 공유 문제에 대해서, 언급하신 내용과 국립국어원의 답변을 잘 보았습니다.
현 상황에 대해서 음성 자료의 경우에서는 기본 자료를 수정하는 코드를 공유해주시는 사례를 보았습니다.

혹시 가능하시다면 세종 코퍼스의 카카오 내부 변환 또한 같은 방식을 사용할 수 있지 않을까 제안해봅니다.

원자료의 수정된 버전을 배포하는 것 또한 효율적인 방법이겠으나, 저작권이 특히 문제가 된다면 고려해볼 수 있지 않을까 생각합니다.

현재 원본 코퍼스 자체를 재배포하는 것은 대부분의 형태 분석 말뭉치가 채택하고 있는 cc-by-nc-nd를 볼 때 가능합니다.

국립국어원>데이터베이스 자료 > 말뭉치 파일

위 저작권은 저작권 표시, 비영리, 원본그대로 공유시 **복제, 배포, 전시, 공연 및 공중송신 (포맷 변경도 포함)**를 허용하고 있습니다.

포맷 변경 또한 내용의 변경이 없다면 허용하고 있기 때문에, 카카오 내의 코퍼스 배포는 아래 배포방법으로 가능해 보입니다.

  1. 원본 코퍼스의 재배포
  2. 재배포 부분에서의 다운로드 코드 공개
  3. 원본 코퍼스의 수정 코드 공개
  4. 자체 제작 코퍼스의 공개

카카오측의 적극적인 검토 부탁드립니다.

감사합니다.

p.s 모든 형태소 분석 코퍼스가 위의 라이선스를 따르는지는 확인하지 않았습니다. 의사가 있으시다면, 전수 조사하겠습니다.

@krikit
Copy link
Member

krikit commented Dec 1, 2018

안녕하세요? 임재수입니다.

말씀하시는 내용이 무엇인지 잘 알고 있으며, 그 의도에 대해서도 충분히 공감합니다. 박찬엽님이 제안하시는 방법으로 저희가 1년 전에 국립국어원에 공개 질의를 하였고 답변은 확인하신 바와 같습니다.

이와 더불어 수정 내용(패치)과 패치를 적용하는 코드를 배포하는 것에 대해 내부적으로 법률팀에 자문을 하였습니다. 저희 법률팀에서는 아래와 같은 결론을 내린 바 있습니다.

국립국어원과의 협의 없이 ‘대상 행위’를 할 경우 저작권 침해로 인정될 가능성이 있습니다.
저작권자인 국립국어원 측에서는 말뭉치 수정 파일의 타 사이트 배포를 엄격히 금지하고 있는바 (분쟁 발생 가능성이 큰 만큼),
국립국어원과 사전 협의 하에 패치 시스템을 도입함이 바람직해 보입니다. 

그 자세한 이유에 대해서 혹시 궁금하시면 제가 메일과 같은 다른 매체로 전달해 드릴 수 있을 것 같습니다. (회사 내부 내용을 이곳에 공개적으로 옮기는 것에 대한 확신이 없어서 그런 점 양해를 부탁드립니다.)

저희가 공개하고 그와 더불어 여러 분들과 함께 데이터를 구축해 갔으면 하는 바람이 있는데요,

  1. 세종 코퍼스를 수정한 내용(패치)과 그것을 적용할 수 있는 프로그램
  2. 저희가 자체적으로 구축한 추가 코퍼스

1)에 대해서는 비공개 저장소에서 진행하거나, 저작권 침해로부터 자유로울 수 있는 방법이 없을 지 한번 더 알아보도록 하겠습니다.

2)에 대해서는 공개에 문제가 없는 지 저희 법률팀에 자문을 구한 뒤 공개하는 방향으로 진행해 보도록 하겠습니다. (만약 법률적인 다른 이슈가 있다면 공개가 힘들 수도 있을 것입니다.)

@mrchypark
Copy link
Author

안녕하세요, 우선 논문 내용을 보지 않고 이슈를 작성하여 대단히 죄송합니다.

많은 고려를 하신 후 진행하신 것이라 생각하여, 기대감에 작성한 것이라 이해해주시면 감사하겠습니다.

2)에 대해서는 당연히 그렇게 해야 한다고 생각합니다.
1)에 대해서도 저도 고민해보도록 하겠습니다.

자연어 연구팀의 기여에 대해 다시 한번 감사드립니다.
우선 이슈 종료하겠습니다.

@mrchypark
Copy link
Author

논문의 내용이 들어가는게 오해를 줄일 수 있을꺼 같아 첨부합니다.

공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법

본 논문의 요지는 2가지 프로그램을 작성, 공유하는 것입니다.
용어로는 패치 생성, 패치 적용, 패치 파일 입니다.

여기서 패치 파일이란 수정을 위해 필요한 파일을 뜻합니다.
패치 생성은 원본과 임의의 수정본이 있을 때 그 둘의 차이를 패치 파일로 작성합니다.
패치 적용은 패치 파일과 원본으로 위 수정본을 생성하는 것입니다.

수정본 자체를 공유하는 것은 저작권 이슈가 발생하나,
패치 생성 스크립트와 패치 적용 스크립트, 패치 파일은 저작권의 대상이 아니기 때문에 매우 좋은 방법이라 판단됩니다.

@krikit
Copy link
Member

krikit commented Dec 28, 2018

위에서 제가 말씀드린 2가지 공개 대상에 대해 회사내 법률팀에 자문한 결과 모두 공개가 불가하다고 답변을 받았습니다.

저희도 안타까운 마음입니다만, 회사로서 리스크에 따른 법률적 판단은 저희의 마음과는 다를 것이라 십분 이해도 갑니다.

기대에 부응하는 답변을 드리지 못해 죄송하다는 말씀을 드리며, 데이터 공개에 대한 부분을 마무리 해야할 것 같습니다.

@mrchypark
Copy link
Author

@krikit 안녕하세요 노력해주신 부분, 충분히 이해하였습니다. 그동안의 노고에 감사드립니다.

혹시 패치 생성 스크립트와 패치 적용 스크립트만 따로 공개해주시는걸 고려해봐주실 수 있나요?
마무리하셨으면 했는데, 마지막 멘트를 추가해서 죄송스럽네요.

@mrchypark mrchypark reopened this Dec 28, 2018
@krikit
Copy link
Member

krikit commented Dec 28, 2018

패치를 제외하고 코드 부분만 이곳에 첨부하려다 생각해보니, 그 코드들도 제가 업무 중에 작성한 것으로 원칙적으로 회사 소유란 생각이 들었습니다.

그래서 코드에 대한 공개 여부도 일단 회사의 허락을 받아야 할 것이므로, 회사 내에서 승인 절차를 거쳐 말씀 드리도록 하겠습니다.

@mrchypark
Copy link
Author

네 맞습니다. 확인하고 부탁드리겠습니다.

@krikit
Copy link
Member

krikit commented Jan 10, 2019

생각해보니 이곳에 공유드린 적이 없네요. 답변이 늦어져서 죄송합니다.

패치를 생성하고 적용하는 코드, 그리고 코퍼스와 관련한 기계적 수정 내용을 담은 스크립트들은 학습 코퍼스를 공개할 때 함께 공개하는 것으로 회사에 허락을 받은 상황입니다.

다만, 학습 코드를 정리하는 과정에서 몇가지 이슈로 인해 좀 늦어지고 있는데요, 이 부분은 어쨌든 v0.3에서 공개될 예정이니 조금만 여유를 갖고 기다려 주시길 부탁드립니다.

@mrchypark
Copy link
Author

@krikit 감사합니다. 이슈 닫으면서 v0.3 기대하도록 하겠습니다. 앞으로도 많은 활동 부탁드리면서 응원하겠습니다.

@chanil1218
Copy link

국립국어원 측에서 문제삼는 부분이 말뭉치 수정 파일의 타 사이트 배포 라면 국립국어원의 회원자료실을 이용하여 수정내용(패치)을 공유하는 방식이 문제가 없는지 국립국어원 측에 문의하였습니다.

또, 해당 패치파일의 다운로드를 할 때에 동의하여야 하는 사용 저작권 동의 항목에 다음과 같은 안내사항이 있습니다.
해당 내용에 따르면 국립국어원이 제공한 자료를 수정한 자료의 공유의 목적으로 회원자료실이 사용될 가능성을 염두해두고 있다고 볼 수 있을 것 같습니다.

회원이 올린 자료에 대한 저작권은 회원이 자료를 올릴 때 설정한 저작권 내용에 따릅니다. 
단, 그 자료가 국립국어원이 제공한 자료(21세기 세종계획 최종 성과물 등)를 수정한 자료일 경우에는 
국립국어원이 제공한 자료에 대한 약성정(이하 약정서)의 내용과 회원이 설정한 저작권이 함께 적용되며, 
약정서의 내용과 회원이 설정한 저작권의 내용이 서로 다른 부분이 있는 경우에는
약정서의 내용이 회원이 설정한 저작권보다 우선하여 적용됩니다.

@chanil1218
Copy link

@krikit
국립국어원 언어정보나눔터에 문의한 결과가 나와 댓글을 남깁니다.

국립국어원의 회원자료실에 수정내용(패치)를 업로드할 경우 관리자와 업로드한 사용자만 확인이 가능한 상태로, 관리자의 승인이 있은 후에 게시가 되나 세종 말뭉치의 수정한 파일을 공유하는 것 또한 저작권 문제가 발생하기에 관리자가 확인 후에 관리자 이름으로 대신하여 게시하여 주신다고 하였습니다.

따라서 사용자게시판을 수정내용의 저장소 정도의 개념으로 사용할 수 있다는 답변을 받았습니다.
다만 수정한 내용에 대한 저작권을 주장할 수 없으며, 주장하지만 않는다면 누가 제출한 수정내용이라고 하는 Credit 정도는 가능하며 대신하여 게시하여 줄 수 있다고 하였습니다.

또한, 관리자의 승인 전에는 해당 내용이 관리자와 게시자 만이 확인 가능하며, 직접 게시의 승인 가능성이 없기에 저작권 문제가 발생할 소지가 없다고 생각됩니다.

@coolengineer 님이 공유해주신 sejong-corpus 프로젝트의 22.download.sh 스크립트를 수정하여 수정내용 저장소로 사용되는 회원자료실의 수정내용을 전부 내려 받아 적용하는 방식으로 공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선이 이뤄질 수 있다고 생각합니다.

검토 부탁드리고 싶습니다.

@krikit
Copy link
Member

krikit commented Mar 26, 2019

@chanil1218 회사 내부적으로 논의해 보고 말씀 드리도록 하겠습니다. 이번 주에 휴가이신 분이 많아 다음주까지 늦어질 수 있는 점 양해 부탁드립니다.

@krikit krikit reopened this Mar 26, 2019
@krikit
Copy link
Member

krikit commented Apr 3, 2019

@chanil1218

내부 사정상 답변이 늦어진 점 죄송합니다. 일단 결론을 말씀드리면 유감스럽게도 제안하신 방법으로는 진행하지 않는 것이 좋겠다는 내부 의견이 있었습니다.

국립국어원 외부 공간(저희도 github을 염두해 뒀습니다)에 코퍼스나 패치를 올리는 것을 국립국어원에서도, 저희 내부 법률팀에서도 저작권 위반 행위로 보고 있어 엄격히 금지하고 있는 것으로 이미 결론이 난 상황입니다.

chanil1218님께서 제안하신 방법은 패치를 국립국어원 언어정보나눔터 게시판을 통해 공유하자는 의견이신데요. 이 불편한 방법으로 과연 "협업"과 "참여"가 원활할 지 의문이 든다는 것이 저희 내부적인 결론입니다.

@chanil1218
Copy link

@krikit
신경써서 알아봐 주신 것 정말 감사드립니다.

Github를 통해 사용자가 만든 패치가 PR의 형태로 공유되면 수정 내용에 대한 리뷰와 전체 수정 내용이 일관되게 유지될 수 있어 말씀하신 "협업"과 "참여"가 원활하게 이루어질 수 있을 것 같은데 저작권 문제 때문에 반쪽짜리 방법으로 밖에 가능하지 않다는 것이 아쉽네요.

카카오에서 구축한 수정 내용을 한국어 자연어처리 커뮤니티에 공유 또한 어렵다는 결론인 것이겠죠?

@krikit
Copy link
Member

krikit commented Apr 4, 2019

@chanil1218 네. 안타깝지만 현재로서는 어려울 것 같습니다.

@chanil1218
Copy link

@krikit
그렇군요. 답변 정말 감사드립니다.
그리고 너무 좋은 프로젝트 공유해주신 것도 이 기회를 빌어 감사드리고 싶습니다~

@krikit krikit closed this as completed Apr 20, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants