인공지능 공부/NLP 연구
(NLP 연구) The Long-Document Transformer 03.15
앨런튜링_
2022. 3. 28. 12:47
- LSH hashing 기법 공부
- LSH 알고리즘
- Shingling
- 비슷한 문서일수록 더욱 많은 shingles를 공유한다
- 문서 에 있는 단락들의 순서를 바꿔도 shingles에는 영향을 주지 않는다
- k의 값은 실제 응용에서 8~10개정도 사용
- 너무 작은 k는 대부분의 문서에서 반복적으로 등장
- ex) gist = {gi, is, st} shingle 집합으로 쪼개진다.
- Jaccard Index
- shingle형태로 표현되었으면 유사성을 측정하는 측정치가 필요하다.
- 두 문서의 교집합의 개수에서 합집합의 개수를 나누어주면 된다.
The Jaccard similarity of two sets is the size of their intersection divided by the size of their union.