구루딕을 구입했다. 구루딕은 원래 리눅스에서 많이 사용하는 Stardict용 사전 데이터를 사용할 수 있도록 만든 어플이다. 아이폰용 Stardict인 iStardict가 원래는 앱스토어에 있었던 것 같은데 2011년 8월 14일인 지금 검색해 보니 사라졌다. 어떤 이유에서 사라진 건지는 알 수 없다.여튼, 그래서 구루딕을 사용하면 된다.

사전 데이터라는 게 뭔 말인지 잘 이해가 안 되는 분들이 있을 거다. 그냥 뭔가 데이터라고 생각하면 된다. 구루딕은 처음에 다운받으면 아무 것도 없다. 그런데 사전 파일을 다운받아서 구루딕에 집어넣으면 사전이 된다.

어떤 것들을 넣을 수 있냐? startdict 사전 파일로 검색해 보면 상당히 많은 사전을 찾을 수 있다.

물론, 링크가 깨져 있는 경우가 꽤 있다. 그건 stardict 공식 웹사이트가 없어졌기 때문이다. 저작권 문제로 공식 웹사이트에 있던 자료들을 다 지워야 했다고 한다. 그래서 startdict에 있는 국어사전 데이터도 사라졌다. 여기를 가리키고 있던 링크들도 모두 깨진 링크가 된 것이다.

직접 제작하기

이런 경우 사전 파일을 직접 만드는 것도 방법이다.

웹상에 서비스되고 있는 표준국어대사전을 긁어서 사전 파일을 만들 수 있다. 사전 파일 자세를 내가 게시하는 것은 아마도 저작권법상 불법인 듯하다.

여튼 아래 링크로 가면 표준국어대사전 클리핑하는 방법이 정말 자세히 나와 있다. 재밌는 건 방법을 설명한 파일이 프로그램 실행파일처럼 돼 있다는 것이다. 윈도우 사용자들은 exe 파일을 다운받아서 사용하면 된다. dnf 파일도 있는데 이건 어떻게 열어 보는 건지 모르겠다. 리눅스에서 사용하는 건가? 지금 집에서 쓰는 거라 윈도우를 사용하고 있어서 테스트를 해 보지 못했다.

단, 이 링크는 스타딕을 기준으로 하는 거라 좀 복잡하다. 그리고 문장이 깔끔하지 않아서 좀 헷갈리는 게 많다. 그래도 공부를 하며 열심히 만들어 볼 사람은 참고할 만하다.

▶웹사전 클리핑으로 표준국어대사전 만들기 – 웹사전 클리핑으로 나만의 사전 만들기

아이폰용으로 할 사람은 편하게 도아님의 글을 참고하면 된다. (▶윈도우용 포터블 스타딕 에디터 다운로드 우분투의 경우 stardict-tools 를 설치하면 된다.)

일단 나는 맥밀란 영영사전을 구루딕에 집어넣었다. 시소러스와 사전을 한 파일로 만들어서 작업했다. 그래야 단어점프가 잘 된다.

아, 그리고 개발자라면 그냥 도아님이 제공하는 PHP 파일을 바로 갖다 사용하면 된다. 링크한 글의 중간쯤에 파일을 받을 수 있게 돼 있다.

▶iPod Touch 강좌 52. 사전 만들기 2. 클리핑

표준국어대사전 클리핑 제작시 유의점

  1. 도아님은 클리핑을 하다가 브라우저가 죽는다고 하셨는데, PHP가 죽을 수도 있다. 웹 통신이 원활하지 않을 때 죽을 수 있다. 그래서 내가 소스를 고쳤다.
  2. 중복되는 표제어가 생길 수 있다. 그럼 오류 날 거다. 에디트플러스를 다운받아(30일 체험판) 도구 > 정렬을 하면서 중복제거에 체크해서 실행하자. 다 합친 파일로 하면 메모리 부족 뜬다. 나눠져 있는 파일에서 실행하자. 즉, 이건 정렬을 위한 게 아니라 중복 제거를 위한 거다.
  3. 긁어진 txt 파일을 다 합쳐서 하나의 파일로 만든 다음, 가나다순 정렬을 안 하면 가1, 가2, 가3, 가4 등의 표제어가 있을 때 골때리는 일이 발생한다. 가4가 제일 앞에 나올 수 있는 거다. 최악은 고어가 제일 앞에 나오는 거다. 여튼, 그래서 정렬을 해야 한다. 근데 이걸 해 줄 수 있는 에디터가 없다. txt 파일은 350메가에 육박하고, 내 컴 램은 4기가인데도 에디트플러스는 정렬하다가 “메모리 부족”을 띄우고 산화했다. 그래서 perl 을 사용하라고 exe 파일 메뉴얼에 나와 있다. 나도 그대로 했다. 역시 콘솔이 짱이야.
  4. stardict 최신버전에 포함돼 있는 stardict 에디터는 ㄱ,ㄴ 같은 자음의 중복을 처리하지 못하고 에러를 뿜는다. 구버전을 이용하면 해결된다. 이거 땜에 두어시간을 헤맸다. ▶윈도우용 포터블 스타딕 에디터 구버전 다운로드
  5. 만만찮은 작업이다. 개발자가 아니면 개고생좀 할 거 같다.