일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 공공데이터
- 분할정복
- 유사도
- 그래프탐색
- 그래프이론
- 유클리드
- 전처리
- 그리디
- 비트마스킹
- Geocoding
- 건축물대장정보
- 수학
- 누적합
- cosine
- 재귀
- dp
- 너비우선탐색
- 구현
- 지진대피소
- TF-IDF
- NLP
- pandas
- xmltodict
- geopy
- 코사인유사도
- GroupBy
- 깊이우선탐색
- 백준
- 자연어처리
- 우선순위큐
- Today
- Total
목록NLP (2)
정리용

문서의 유사도를 측정하는 방법은 2가지가 대표적이다 하나는 유클리드 거리를 사용하는 방법과 나머지는 코사인 유사도를 사용하는 방법이다. 1. 유클리드 거리 (Euclidean distance) 유클리드 거리는 벡터의 거리를 기준으로 유사도로 측정하는 방법이다 피타고라스 정리를 이용한 빗변의 길이를 구하는 것으로 거리가 가까울수록 유사도가 크다. B- C 의 거리(베타) 가 A-B 의 거리(알파) 보다 크기 때문에 A - B 의 유사도가 더 크다 2. 코사인 유사도 코사인 유사도는 벡터 사이 각도를 기준으로 유사도를 측정하는 방법이다. 벡터의 크기는 배제하고 방향만 보는 것으로 백터 사이각이 좁을수록, 즉 코사인값이 클수록 유사도가 높다. 또한 이때 벡터 사이 각도는 0도~ 90도의 값을 가지게 되는데 이..

1. 용어 정의 TF = Term Frequency, 특정 단어의 빈도를 타나냄 Doc[0] 에서 go 의 TF는 1 , home 의 TF 는 2 이다. DF = Document Frequency, 특정 단어가 나타나는 문장 수 home은 총 4번 등장했지만 문장수는 3개 이므로 home 의 DF 는 3 이다 IDF = ln { (1+n) / (1+df) } + 1 , DF의 역수변환 ( n = 3 , 총 문장의 수 ) 큰 DF 값을 가지는 단어에 패널티를 주는 것이 목적이다. 2. TF-IDF 의 특징 TF-IDF은 빈도 기반 단어 임베딩 방법 중 하나이며 특징 추출 기법으로 데이터의 특징들만을 추출하여 딥러닝 학습 효율을 높히는 것이다. 특정 단어의 빈도를 기반으로한 특징 추출의 경우 " 저, 그, ..