일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 전처리
- 재귀
- dp
- 그래프탐색
- xmltodict
- 공공데이터
- NLP
- 지진대피소
- 그래프이론
- cosine
- geopy
- Geocoding
- pandas
- 유클리드
- 유사도
- 백준
- 코사인유사도
- 구현
- 누적합
- 우선순위큐
- 분할정복
- TF-IDF
- GroupBy
- 비트마스킹
- 너비우선탐색
- 건축물대장정보
- 깊이우선탐색
- 그리디
- 자연어처리
- 수학
- Today
- Total
목록딥러닝 (11)
정리용
ㅅ
GloVe는 카운트 기반과 예측 기반을 모두 사용하는 방법론으로 2014년에 미국 스탠포드대학에서 Word2Vec과 LSA의 단점을 극복하고자 개발한 단어 임베딩 방법론입니다. 앞서 학습하였던 기존의 카운트 기반의 LSA(Latent Semantic Analysis)와 예측 기반의 Word2Vec의 단점을 지적하며 이를 보완한다는 목적으로 나왔고, 실제로도 Word2Vec만큼 뛰어난 성능을 보여줍니다. 현재까지의 연구에 따르면 단정적으로 Word2Vec와 GloVe 중에서 어떤 것이 더 뛰어나다고 말할 수는 없고, 이 두 가지 전부를 사용해보고 성능이 더 좋은 것을 사용하는 것이 바람직합니다. https://wikidocs.net/22885 코퍼스 전체의 통계량을 더 잘 반영하고, 단어 간 유사도 측정을..
ㅎ

1. 기존 문제점 BOW, TF-IDF 등 빈도 기반의 임베딩 기법엔 큰 문제가 있다. 1) 대규모 데이터를 처리할때의 메모리 과부화 문제 2) 한번에 학습데이터 전체를 진행하여 학습을 통해 개선이 어려움 이 두가지 문제점은 ~~~ 에서 비롯된다. 2. Word2Vec 빈도기반의 임베딩 기법의 문제점을 추론 기반의 word2vec은 2가지 알고리즘을 이용한다 1) CBOW -> 주변 단어를 이용해 중간 단어를 예측하는 방법으로 2개의 input과 1개의 output을 가진다 2) Skip-gram -> 주변 단어를 이용해 중간 단어를 예측하는 방법으로 1개의 input과 2개의 output을 가진다. 기본적인 과정은 두 알고리즘이 동일하다. (1) ~ (2) 입력층 벡터로 표현된 입력값을 받으며 이때 초..

1. SVD ( 특이값 분해 ) SVD는 행렬을 분해하여 중요한 요소만을 뽑아낼때 사용된다. https://bab2min.tistory.com/585 자연어 처리의 경우 U mertix => topic을 위한 word metrix 이고 Σ metrix => topic 에 대한 strength(강도) Vt metrix => topic을 위한 Document matrix 여기서 Σ은 r개의 특이값을 가지는데, 이것을 작은 값으로 설정하여 topic strength 상위 r 개의 정보만 뽑아낸 형태를 truncated SVD 라고 한다. Σ의 대각행렬의 원소들은 크기순으로 정렬되며 r = 1 이더라도 A의 shape는 계산된다 r = 2 의 truncated SVD를 적용해 Σ metrix 과 Vt metri..

문서의 유사도를 측정하는 방법은 2가지가 대표적이다 하나는 유클리드 거리를 사용하는 방법과 나머지는 코사인 유사도를 사용하는 방법이다. 1. 유클리드 거리 (Euclidean distance) 유클리드 거리는 벡터의 거리를 기준으로 유사도로 측정하는 방법이다 피타고라스 정리를 이용한 빗변의 길이를 구하는 것으로 거리가 가까울수록 유사도가 크다. B- C 의 거리(베타) 가 A-B 의 거리(알파) 보다 크기 때문에 A - B 의 유사도가 더 크다 2. 코사인 유사도 코사인 유사도는 벡터 사이 각도를 기준으로 유사도를 측정하는 방법이다. 벡터의 크기는 배제하고 방향만 보는 것으로 백터 사이각이 좁을수록, 즉 코사인값이 클수록 유사도가 높다. 또한 이때 벡터 사이 각도는 0도~ 90도의 값을 가지게 되는데 이..

1. 용어 정의 TF = Term Frequency, 특정 단어의 빈도를 타나냄 Doc[0] 에서 go 의 TF는 1 , home 의 TF 는 2 이다. DF = Document Frequency, 특정 단어가 나타나는 문장 수 home은 총 4번 등장했지만 문장수는 3개 이므로 home 의 DF 는 3 이다 IDF = ln { (1+n) / (1+df) } + 1 , DF의 역수변환 ( n = 3 , 총 문장의 수 ) 큰 DF 값을 가지는 단어에 패널티를 주는 것이 목적이다. 2. TF-IDF 의 특징 TF-IDF은 빈도 기반 단어 임베딩 방법 중 하나이며 특징 추출 기법으로 데이터의 특징들만을 추출하여 딥러닝 학습 효율을 높히는 것이다. 특정 단어의 빈도를 기반으로한 특징 추출의 경우 " 저, 그, ..

1. BOW 사용 이유 머신러닝을 사용하기위해 문장을 수치값으로 변환하는 자연어 처리의 가장 기본적인 방법이다. 2. 백터화 과정 2-1 단어사전 모든 문서에 대한 단어 사전(Vocabulary_ , 왼쪽 사진)을 생성한다. text = ['i go to my home my home is very large', 'i went out my home i go to the market', 'i bought a yellow lemon i go back to home'] from sklearn.feature_extraction.text import CountVectorizer cv = CountVectorizer() bow = cv.fit_transform(text) 모든 문장(text)에 대한 단어사전이 딕셔너..