인공지능 공부/NLP 연구

(NLP 연구) The Long-Document Transformer 03.15

  • LSH hashing 기법 공부
    • LSH 알고리즘

  • Shingling
    • 비슷한 문서일수록 더욱 많은 shingles를 공유한다
    • 문서 에 있는 단락들의 순서를 바꿔도 shingles에는 영향을 주지 않는다
    • k의 값은 실제 응용에서 8~10개정도 사용
    • 너무 작은 k는 대부분의 문서에서 반복적으로 등장
      • ex) gist = {gi, is, st} shingle 집합으로 쪼개진다.
  • Jaccard Index
    • shingle형태로 표현되었으면 유사성을 측정하는 측정치가 필요하다.
    • 두 문서의 교집합의 개수에서 합집합의 개수를 나누어주면 된다.

 

The Jaccard similarity of two sets is the size of their intersection divided by the size of their union.