'NLP' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록NLP (2)

정리용

[NLP] 문서의 유사도 측정 방법 ( 유클리드 거리 / 코사인 유사도 )

문서의 유사도를 측정하는 방법은 2가지가 대표적이다 하나는 유클리드 거리를 사용하는 방법과 나머지는 코사인 유사도를 사용하는 방법이다. 1. 유클리드 거리 (Euclidean distance) 유클리드 거리는 벡터의 거리를 기준으로 유사도로 측정하는 방법이다 피타고라스 정리를 이용한 빗변의 길이를 구하는 것으로 거리가 가까울수록 유사도가 크다. B- C 의 거리(베타) 가 A-B 의 거리(알파) 보다 크기 때문에 A - B 의 유사도가 더 크다 2. 코사인 유사도 코사인 유사도는 벡터 사이 각도를 기준으로 유사도를 측정하는 방법이다. 벡터의 크기는 배제하고 방향만 보는 것으로 백터 사이각이 좁을수록, 즉 코사인값이 클수록 유사도가 높다. 또한 이때 벡터 사이 각도는 0도~ 90도의 값을 가지게 되는데 이..

딥러닝/이론 2022. 1. 25. 17:57

[NLP] TF-IDF

1. 용어 정의 TF = Term Frequency, 특정 단어의 빈도를 타나냄 Doc[0] 에서 go 의 TF는 1 , home 의 TF 는 2 이다. DF = Document Frequency, 특정 단어가 나타나는 문장 수 home은 총 4번 등장했지만 문장수는 3개 이므로 home 의 DF 는 3 이다 IDF = ln { (1+n) / (1+df) } + 1 , DF의 역수변환 ( n = 3 , 총 문장의 수 ) 큰 DF 값을 가지는 단어에 패널티를 주는 것이 목적이다. 2. TF-IDF 의 특징 TF-IDF은 빈도 기반 단어 임베딩 방법 중 하나이며 특징 추출 기법으로 데이터의 특징들만을 추출하여 딥러닝 학습 효율을 높히는 것이다. 특정 단어의 빈도를 기반으로한 특징 추출의 경우 " 저, 그, ..

딥러닝/이론 2022. 1. 24. 22:55

Prev 1 Next

목록NLP (2)

정리용

티스토리툴바