구루딕을 구입했다. 구루딕은 원래 리눅스에서 많이 사용하는 Stardict용 사전 데이터를 사용할 수 있도록 만든 어플이다. 아이폰용 Stardict인 iStardict가 원래는 앱스토어에 있었던 것 같은데 2011년 8월 14일인 지금 검색해 보니 사라졌다. 어떤 이유에서 사라진 건지는 알 수 없다.여튼, 그래서 구루딕을 사용하면 된다.
사전 데이터라는 게 뭔 말인지 잘 이해가 안 되는 분들이 있을 거다. 그냥 뭔가 데이터라고 생각하면 된다. 구루딕은 처음에 다운받으면 아무 것도 없다. 그런데 사전 파일을 다운받아서 구루딕에 집어넣으면 사전이 된다.
어떤 것들을 넣을 수 있냐? startdict 사전 파일로 검색해 보면 상당히 많은 사전을 찾을 수 있다.
물론, 링크가 깨져 있는 경우가 꽤 있다. 그건 stardict 공식 웹사이트가 없어졌기 때문이다. 저작권 문제로 공식 웹사이트에 있던 자료들을 다 지워야 했다고 한다. 그래서 startdict에 있는 국어사전 데이터도 사라졌다. 여기를 가리키고 있던 링크들도 모두 깨진 링크가 된 것이다.
직접 제작하기
이런 경우 사전 파일을 직접 만드는 것도 방법이다.
웹상에 서비스되고 있는 표준국어대사전을 긁어서 사전 파일을 만들 수 있다. 사전 파일 자세를 내가 게시하는 것은 아마도 저작권법상 불법인 듯하다.
여튼 아래 링크로 가면 표준국어대사전 클리핑하는 방법이 정말 자세히 나와 있다. 재밌는 건 방법을 설명한 파일이 프로그램 실행파일처럼 돼 있다는 것이다. 윈도우 사용자들은 exe 파일을 다운받아서 사용하면 된다. dnf 파일도 있는데 이건 어떻게 열어 보는 건지 모르겠다. 리눅스에서 사용하는 건가? 지금 집에서 쓰는 거라 윈도우를 사용하고 있어서 테스트를 해 보지 못했다.
단, 이 링크는 스타딕을 기준으로 하는 거라 좀 복잡하다. 그리고 문장이 깔끔하지 않아서 좀 헷갈리는 게 많다. 그래도 공부를 하며 열심히 만들어 볼 사람은 참고할 만하다.
▶웹사전 클리핑으로 표준국어대사전 만들기 – 웹사전 클리핑으로 나만의 사전 만들기
아이폰용으로 할 사람은 편하게 도아님의 글을 참고하면 된다. (▶윈도우용 포터블 스타딕 에디터 다운로드 우분투의 경우 stardict-tools 를 설치하면 된다.)
일단 나는 맥밀란 영영사전을 구루딕에 집어넣었다. 시소러스와 사전을 한 파일로 만들어서 작업했다. 그래야 단어점프가 잘 된다.
아, 그리고 개발자라면 그냥 도아님이 제공하는 PHP 파일을 바로 갖다 사용하면 된다. 링크한 글의 중간쯤에 파일을 받을 수 있게 돼 있다.
▶iPod Touch 강좌 52. 사전 만들기 2. 클리핑
표준국어대사전 클리핑 제작시 유의점
- 도아님은 클리핑을 하다가 브라우저가 죽는다고 하셨는데, PHP가 죽을 수도 있다. 웹 통신이 원활하지 않을 때 죽을 수 있다. 그래서 내가 소스를 고쳤다.
- 중복되는 표제어가 생길 수 있다. 그럼 오류 날 거다. 에디트플러스를 다운받아(30일 체험판) 도구 > 정렬을 하면서 중복제거에 체크해서 실행하자. 다 합친 파일로 하면 메모리 부족 뜬다. 나눠져 있는 파일에서 실행하자. 즉, 이건 정렬을 위한 게 아니라 중복 제거를 위한 거다.
- 긁어진 txt 파일을 다 합쳐서 하나의 파일로 만든 다음, 가나다순 정렬을 안 하면 가1, 가2, 가3, 가4 등의 표제어가 있을 때 골때리는 일이 발생한다. 가4가 제일 앞에 나올 수 있는 거다. 최악은 고어가 제일 앞에 나오는 거다. 여튼, 그래서 정렬을 해야 한다. 근데 이걸 해 줄 수 있는 에디터가 없다. txt 파일은 350메가에 육박하고, 내 컴 램은 4기가인데도 에디트플러스는 정렬하다가 “메모리 부족”을 띄우고 산화했다. 그래서 perl 을 사용하라고 exe 파일 메뉴얼에 나와 있다. 나도 그대로 했다. 역시 콘솔이 짱이야.
- stardict 최신버전에 포함돼 있는 stardict 에디터는 ㄱ,ㄴ 같은 자음의 중복을 처리하지 못하고 에러를 뿜는다. 구버전을 이용하면 해결된다. 이거 땜에 두어시간을 헤맸다. ▶윈도우용 포터블 스타딕 에디터 구버전 다운로드
- 만만찮은 작업이다. 개발자가 아니면 개고생좀 할 거 같다.
댓글 남기기