- LSH hashing 기법 공부
- LSH 알고리즘
- Shingling
- 비슷한 문서일수록 더욱 많은 shingles를 공유한다
- 문서 에 있는 단락들의 순서를 바꿔도 shingles에는 영향을 주지 않는다
- k의 값은 실제 응용에서 8~10개정도 사용
- 너무 작은 k는 대부분의 문서에서 반복적으로 등장
- ex) gist = {gi, is, st} shingle 집합으로 쪼개진다.
- Jaccard Index
- shingle형태로 표현되었으면 유사성을 측정하는 측정치가 필요하다.
- 두 문서의 교집합의 개수에서 합집합의 개수를 나누어주면 된다.
The Jaccard similarity of two sets is the size of their intersection divided by the size of their union.
'인공지능 공부 > NLP 연구' 카테고리의 다른 글
(NLP 연구) The Long-Document Transformer 03.17 (0) | 2022.03.28 |
---|---|
(NLP 연구) The Long-Document Transformer 03.16 (0) | 2022.03.28 |
(NLP 연구) The Long-Document Transformer 03.14 (0) | 2022.03.28 |
(NLP 연구) Paper 정리 (0) | 2022.03.28 |
(NLP 연구) The Long-Document Transformer 03.10 (0) | 2022.03.24 |