#012 유사도 계산(데이터 유형)

2013년 9월 2일2016년 1월 22일 by nobaksan

1. 템벡터는 방향과 크기가 있는 벡터다

알고리즘은 분석 작업을 하기 위해 데이터를 입력 받는다. 여러 인스턴스로 구성된 데이터는 테이블 형태로도 표현할수 있다. 이런 테이블에서 데이터가 어떻게 분포되어 있느냐에 따라, 고밀도 데이터셋과 고차원 저밀도 데이터 셋으로 구분된다.

2. 데이터 유형

예)

사이트에 세사람이 머무는 시간

나이 성별 하루동안 사이트에 머무는 시간

존 25 M 25

조 30 M 20

제인 20 F 30

데이터셋에서 사이트에서 보낸시간을 예측 할수 있는 중요 인자는 나이, 사이트에서 보낸시간이다. 그러나 성별 속성은 예측에 필요없는 데이터 이다.

1. 고밀도 데이터셋 – 사용자가 늘어날수록 데이터셋의 행은 늘어난다.

– 행의 개수가 열의 개수보다 더 많다.

– 고밀도 데이터 셋은 각 셀마다 값이 존재한다.

————————————————————-

고차원 저밀도 데이터셋은 일반적인 형태의 텀 백터이다. 이 데이터 셋을 이해하기 위해서는 지난주라는 시간 영역을 생각하여야 한다. 같은 시간 영역에서 비디오를 본 사용자 집단과 아닌경우로 나눌수 있다.

동영상1 동영상2 동영상3…

존 1

조 1 1

제인 1

1. 저밀도 데이터 셋 – 사용자 교류를 기반으로 하여 유사한 비디오를 찾을수 있다. 이런 분석 방법은 유튜브 같은 사이트에서 관련 비디오를 찾는데 도움이 될것이다.

– 열의 개수가 많다.

– 데이터셋은 몇몇열만 0이 아닌 값으로 채워진 저밀도 형태다.

– 이런 데이터셋은 다차원 백터로 표현할수 있다.