일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 유사도
- 그래프탐색
- 너비우선탐색
- 전처리
- 유클리드
- GroupBy
- 그리디
- 지진대피소
- TF-IDF
- 구현
- 자연어처리
- geopy
- 공공데이터
- 수학
- 코사인유사도
- 백준
- xmltodict
- 우선순위큐
- 깊이우선탐색
- 분할정복
- 그래프이론
- Geocoding
- NLP
- 누적합
- pandas
- 건축물대장정보
- 비트마스킹
- dp
- cosine
- 재귀
- Today
- Total
목록전체 글 (58)
정리용

문서의 유사도를 측정하는 방법은 2가지가 대표적이다 하나는 유클리드 거리를 사용하는 방법과 나머지는 코사인 유사도를 사용하는 방법이다. 1. 유클리드 거리 (Euclidean distance) 유클리드 거리는 벡터의 거리를 기준으로 유사도로 측정하는 방법이다 피타고라스 정리를 이용한 빗변의 길이를 구하는 것으로 거리가 가까울수록 유사도가 크다. B- C 의 거리(베타) 가 A-B 의 거리(알파) 보다 크기 때문에 A - B 의 유사도가 더 크다 2. 코사인 유사도 코사인 유사도는 벡터 사이 각도를 기준으로 유사도를 측정하는 방법이다. 벡터의 크기는 배제하고 방향만 보는 것으로 백터 사이각이 좁을수록, 즉 코사인값이 클수록 유사도가 높다. 또한 이때 벡터 사이 각도는 0도~ 90도의 값을 가지게 되는데 이..

1. 용어 정의 TF = Term Frequency, 특정 단어의 빈도를 타나냄 Doc[0] 에서 go 의 TF는 1 , home 의 TF 는 2 이다. DF = Document Frequency, 특정 단어가 나타나는 문장 수 home은 총 4번 등장했지만 문장수는 3개 이므로 home 의 DF 는 3 이다 IDF = ln { (1+n) / (1+df) } + 1 , DF의 역수변환 ( n = 3 , 총 문장의 수 ) 큰 DF 값을 가지는 단어에 패널티를 주는 것이 목적이다. 2. TF-IDF 의 특징 TF-IDF은 빈도 기반 단어 임베딩 방법 중 하나이며 특징 추출 기법으로 데이터의 특징들만을 추출하여 딥러닝 학습 효율을 높히는 것이다. 특정 단어의 빈도를 기반으로한 특징 추출의 경우 " 저, 그, ..

1. BOW 사용 이유 머신러닝을 사용하기위해 문장을 수치값으로 변환하는 자연어 처리의 가장 기본적인 방법이다. 2. 백터화 과정 2-1 단어사전 모든 문서에 대한 단어 사전(Vocabulary_ , 왼쪽 사진)을 생성한다. text = ['i go to my home my home is very large', 'i went out my home i go to the market', 'i bought a yellow lemon i go back to home'] from sklearn.feature_extraction.text import CountVectorizer cv = CountVectorizer() bow = cv.fit_transform(text) 모든 문장(text)에 대한 단어사전이 딕셔너..

1. 논문의 탄생 논문은 크게 학회논문과 학위논문으로 구분되지만 절차는 모두 동일하다 " 논문 모집 → 논문 제출 → 논문 평가 → 게재 승인 → 논문 출판 " 학위 논문의 경우, 학회(society)의 편집장이 주제와 기한을 정해 모집을 하면 연구자는 연구를 통해 논문을 제출한다 논문에 분야에 맞는 학회 맴버와 검토자에 의한 논문 평가를 통해 게재 승인 여부가 판별되며 승인이 될경우 논문 출판이 이루어진다. (학회도 여러가지가 있으며 임팩트있는 학회의 경우 100편중 15~20편 정도의 논문만 채택이 된다.) 학회 논문은 모집하고 개제되는 집단이 학회(society)인데 반에 학위 논문은 그것이 대학(university)이다. 학위 논문의 경우, 대학 내에서 논문을 모집하며 논문에 평가 또한 대학 내의..
Google 에서 발표한 Attention is All you Need (2017) 를 기점으로 해당 논문에서 다룬 Transformer는 encoder / decoder 과정에서 LSTM의 단점을 제거하고 Positional encoding을 사용한 모델로 순차적으로 계산하는 RNN 과 달리 병렬적으로 한번에 이 과정을 처리하며 자연어 처리의 혁명적인 변화를 일으켰다. 때문에 Attention is All you Need 이전의 모델들은 고전적인 방법으로 분류된다.
https://arxiv.org/pdf/1706.03762.pdf 1.
https://www.acmicpc.net/problem/11724 11724번: 연결 요소의 개수 첫째 줄에 정점의 개수 N과 간선의 개수 M이 주어진다. (1 ≤ N ≤ 1,000, 0 ≤ M ≤ N×(N-1)/2) 둘째 줄부터 M개의 줄에 간선의 양 끝점 u와 v가 주어진다. (1 ≤ u, v ≤ N, u ≠ v) 같은 간선은 한 번만 주 www.acmicpc.net 1. 코드설명 1-1 재귀 sys.setrecursionlimit(10**6) def dfs(i): done[i]=1 for j in arr[i]: if done[j]==0: dfs(j) n,m =map(int,input().split()) arr = [[] for i in range(n+1)] for i in range(m): a,b..
https://www.acmicpc.net/problem/11723 11723번: 집합 첫째 줄에 수행해야 하는 연산의 수 M (1 ≤ M ≤ 3,000,000)이 주어진다. 둘째 줄부터 M개의 줄에 수행해야 하는 연산이 한 줄에 하나씩 주어진다. www.acmicpc.net 1. 코드설명 import sys input = lambda : sys.stdin.readline().strip() s=[] for i in range(int(input())): a=input().split() if a[0] == 'all': s=[i for i in range(1,21)] continue elif a[0] == 'empty': s.clear() continue num=int(a[1]) if a[0] == 'add'..