#011 비구조적 텍스트에서 지능형 정보 추출

2013년 9월 2일2016년 1월 22일 by nobaksan

벡터스페이스 모델

벡터공간 모델 상에서 각 도큐먼트들과 질문자들은 n차원 공간 속의 벡터들로 취급되며,
이때 각 차원들은 색인용어들로 표현된다.
이 기법에 의한 검색 절차는 다음과 같다.
1) 용어의 가중치는 정규화된 도큐먼트내의 빈도(TF)와 이의 역빈도수(IDF)를 조합하여 게산
2) “낮은 식별치(poor discrimination value)의 값을 지닌 용어들은 시소러스내의 저 빈도용어들로 대치되며
구의 경우 고빈도 용어들로 대체된다.
3) 각 도큐먼트들은 이용자 질문에 대해서 그 유사성의 순위별로 출력되며, 이러한 과정은 코사인 상관도에
의해 계산된다. (벡터 공간 내에서 이용자의 질의에 가장 근접해 있는 도큐먼트들을 직관적으로 검색해낸다.)

자세한 내용은 다운받아 보시길…

1. Definition
2. Applications
3. Examples
4. Limitations
5. Reference
6. Models based on and extending the vector space model

COF-Vector Space Model.pdf

벡터 스페이스 모델은 문서를 표현하는데 가장 많이 사용되는 방법

텍스트-텀가중치-텀가중치-텀가중치 의 형태로 문서를 표현하는데, 이는 문서에 등장하는 텀과 각 텀의 관련 가중치로 구성된다. 텀백터는 아이템과 관련된 메타데이터를 표현하는 하나의 표현형태이다.

텀가중치는 텀의 빈도와 역문서빈도(TFIDF)를 조합하여 결정된다. 텀 빈도는 한 문서안에서 텀의 출연한 빈도이다.

특정 문서내에서 자주 출연할수록 그 단어가 문서의 주제와 밀접한 관련이 있다는 이야기이다. 특정 영역에서 몇 단어는 다른 단어보다 자주 출현한다.

만일 텀이 모든 문서에 나타나면 IDF는 log(1)이 되어 결국 0이된다는 사실을 기억하길 바란다.

문서에서 굉장히 자주 출현하는 a the and와 같은 단어는 문서를 표현하는데 그리 큰 가치를 주지 못한다. 이런단어들을 불용어라 하며, 텀 백터에서 제거된다.

정규화를 위해 텀은 소문자로 변형이 되고 더 나아가 단수, 복수형 명사들에 대해서 스테밍 처리된다.

* 텍스트 분석과정은 각 단계와 같다.

1. 토큰화: 텍스트에서 텀을 추출하기 위해 파싱하는과정

2. 정규화: 텍스트를 모두 소문자로 변형하는 등의 표준화 작업

3. 불용어 제어: 매우 자주 출현하는 텀을 제거하는 과정

4. 스태밍 처리: 어근 추출

답글 남기기 응답 취소