처음 사진집 |
---|
포터 어근추출기(Porter Stemmer)여기서는 Martin Porter가 1979년에 발표한 포터의 영어 스테밍 C 소스(strip_affixes.c) 를 제공합니다. 간단한 시험도 해 볼 수 있구요. 이 소스의 원본은 1986년에 Stuart J. Barr가 만들었으며 제가 2000년 경에 속도 최적화를 한 것입니다. 다른 언어를 위한 것은 저자의 알고리즘 소개 페이지에서 내려받을 수 있습니다. 출력결과
저자에 의하면 포터스테머는 포터2 스테머에 비해 성능이 떨어진다고 합니다. 따라서 실제 적용에는 포터2 스테머를 사용하라고 하는 군요. 그리고 개인적인 생각으로는 정보검색에서는 영어에 대한 어근추출을 하지 않는 것이 좋을 것 같습니다. 어근추출이라고 하지만 결국 정보의 일부를 잃어버리는 거니까요... 구글처럼 질의확장을 통해 (예를 들어 검색어가 "lion"이라면 "lion OR lions"로 확장) 재현율을 높이는 것이 최상의 방법일 듯 합니다. 관련바깥고리
지인의 부탁으로 예전에 스테밍 소스 손본 것을 찾아서 올립니다. KRISTAL 형태소분석기에 포함되어 있는 소스를 시험용으로 약간 정리함. - 2011.02.24. |
처음으로 사진집 |
Custom Search
|
---|
김진숙의 사진집. 당사자 외에는 인물사진의 펌은 허락하지 않습니다. 그 외의 사진은 맘대로 퍼셔도 됩니다. |