일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 수학
- 분할정복
- Geocoding
- 공공데이터
- 재귀
- 깊이우선탐색
- dp
- geopy
- 지진대피소
- cosine
- 백준
- 유사도
- TF-IDF
- 전처리
- NLP
- 유클리드
- 우선순위큐
- 비트마스킹
- 자연어처리
- 건축물대장정보
- 구현
- xmltodict
- GroupBy
- 그래프이론
- 누적합
- 그래프탐색
- pandas
- 너비우선탐색
- 코사인유사도
- 그리디
- Today
- Total
목록전체 글 (58)
정리용
ㅅ
GloVe는 카운트 기반과 예측 기반을 모두 사용하는 방법론으로 2014년에 미국 스탠포드대학에서 Word2Vec과 LSA의 단점을 극복하고자 개발한 단어 임베딩 방법론입니다. 앞서 학습하였던 기존의 카운트 기반의 LSA(Latent Semantic Analysis)와 예측 기반의 Word2Vec의 단점을 지적하며 이를 보완한다는 목적으로 나왔고, 실제로도 Word2Vec만큼 뛰어난 성능을 보여줍니다. 현재까지의 연구에 따르면 단정적으로 Word2Vec와 GloVe 중에서 어떤 것이 더 뛰어나다고 말할 수는 없고, 이 두 가지 전부를 사용해보고 성능이 더 좋은 것을 사용하는 것이 바람직합니다. https://wikidocs.net/22885 코퍼스 전체의 통계량을 더 잘 반영하고, 단어 간 유사도 측정을..
ㅎ

1. 기존 문제점 BOW, TF-IDF 등 빈도 기반의 임베딩 기법엔 큰 문제가 있다. 1) 대규모 데이터를 처리할때의 메모리 과부화 문제 2) 한번에 학습데이터 전체를 진행하여 학습을 통해 개선이 어려움 이 두가지 문제점은 ~~~ 에서 비롯된다. 2. Word2Vec 빈도기반의 임베딩 기법의 문제점을 추론 기반의 word2vec은 2가지 알고리즘을 이용한다 1) CBOW -> 주변 단어를 이용해 중간 단어를 예측하는 방법으로 2개의 input과 1개의 output을 가진다 2) Skip-gram -> 주변 단어를 이용해 중간 단어를 예측하는 방법으로 1개의 input과 2개의 output을 가진다. 기본적인 과정은 두 알고리즘이 동일하다. (1) ~ (2) 입력층 벡터로 표현된 입력값을 받으며 이때 초..

1. SVD ( 특이값 분해 ) SVD는 행렬을 분해하여 중요한 요소만을 뽑아낼때 사용된다. https://bab2min.tistory.com/585 자연어 처리의 경우 U mertix => topic을 위한 word metrix 이고 Σ metrix => topic 에 대한 strength(강도) Vt metrix => topic을 위한 Document matrix 여기서 Σ은 r개의 특이값을 가지는데, 이것을 작은 값으로 설정하여 topic strength 상위 r 개의 정보만 뽑아낸 형태를 truncated SVD 라고 한다. Σ의 대각행렬의 원소들은 크기순으로 정렬되며 r = 1 이더라도 A의 shape는 계산된다 r = 2 의 truncated SVD를 적용해 Σ metrix 과 Vt metri..