처음   사진집
Share |

포터 어근추출기(Porter Stemmer)

여기서는 Martin Porter가 1979년에 발표한 포터의 영어 스테밍 C 소스(strip_affixes.c) 를 제공합니다. 간단한 시험도 해 볼 수 있구요. 이 소스의 원본은 1986년에 Stuart J. Barr가 만들었으며 제가 2000년 경에 속도 최적화를 한 것입니다. 다른 언어를 위한 것은 저자의 알고리즘 소개 페이지에서 내려받을 수 있습니다.

출력결과

입력단어추출된 어근

포터어근추출기 시험해보기(영어 단어를 공백단위로 입력하세요).

저자에 의하면 포터스테머는 포터2 스테머에 비해 성능이 떨어진다고 합니다. 따라서 실제 적용에는 포터2 스테머를 사용하라고 하는 군요. 그리고 개인적인 생각으로는 정보검색에서는 영어에 대한 어근추출을 하지 않는 것이 좋을 것 같습니다. 어근추출이라고 하지만 결국 정보의 일부를 잃어버리는 거니까요... 구글처럼 질의확장을 통해 (예를 들어 검색어가 "lion"이라면 "lion OR lions"로 확장) 재현율을 높이는 것이 최상의 방법일 듯 합니다.

관련바깥고리

지인의 부탁으로 예전에 스테밍 소스 손본 것을 찾아서 올립니다. KRISTAL 형태소분석기에 포함되어 있는 소스를 시험용으로 약간 정리함. - 2011.02.24.

처음으로   사진집
Custom Search
김진숙의 사진집. 당사자 외에는 인물사진의 펌은 허락하지 않습니다. 그 외의 사진은 맘대로 퍼셔도 됩니다.