자동문서분류 실험문서집합(Test Collections for Automated Text Categorziation)
한글 문서분류 테스트 컬렉션: 한국일보-20000/한국일보-40075 문서범주화 실험문서집합 - http://www.kristalinfo.com/TestCollections/#hkib
한글 문서범주화 실험문서집합. HKIB-20000과 HKIB-40075의 두 개의 집합으로 구성. 계층형 분류.
Reuters-21578 Text Categorization Test Collection - http://www.daviddlewis.com/resources/testcollections/reuters21578/
전통적으로 문서범주화 연구에서 가장 많이 사용되었던 영어 문서집합. 로이터사의 신문기사로 구성.
RCV1 (Reuters Corpus Volume 1) - http://trec.nist.gov/data/reuters/reuters.html
D. Lewis의 로이터-21578 문서집합을 대체하고 있는 대형 영어 문서집합. 로이터사의 신문기사로 구성. 현재 영어문서범주화 연구에 있어서 대표적인 실험집합임.
RCV1-v2/LYRL2004: The LYRL2004 Distribution of the RCV1-v2 Text Categorization Test Collection - http://www.ai.mit.edu/projects/jmlr/papers/volume5/lewis04a/lyrl2004_rcv1v2_README.htm
TREC-AP - http://www.daviddlewis.com/resources/testcollections/trecap/
A text categorization task based on the Associated Press articles used in the NIST TREC evaluations
TechTC-100 Test Collection for Text Categorization - http://techtc.cs.technion.ac.il/techtc100/techtc100.html
Open Directory Project인 dmoz.org의 분류에 따라 웹에서 추출한 문서로 구성된 문서집합. 100개의 범주 사용.
정리: 2011.03.25.
Custom Search
김진숙의 사진집. 당사자 외에는 인물사진의 펌은 허락하지 않습니다. 그 외의 사진은 맘대로 퍼셔도 됩니다.