Week20 Day3 - ai-esg/our-history GitHub Wiki

νŒ€ NLP 11μ‘° Week20 Day3

λͺ©μ°¨

일자

  • 2021.12.15 수

νŒ€μ›

  • 문석암_T2075
  • λ°•λ§ˆλ£¨μ°¬_T2078
  • λ°•μ•„λ©˜_T2090
  • μš°μ›μ§„_T2137
  • μœ€μ˜ν›ˆ_T2142
  • μž₯동건_T2185
  • ν™ν˜„μŠΉ_T2250

μ£Όκ°„ 일정

  • 1μ£Όμ°¨ λ©˜ν† λ§ 12/10(금) 16:00
  • 2μ£Όμ°¨ λ©˜ν† λ§ 12/15(수) 16:30
  • 3μ£Όμ°¨ λ©˜ν† λ§ 12/20(μ›”) 16:00

ν”Όμ–΄μ„Έμ…˜

μ΅œμ’…ν”„λ‘œμ νŠΈ

ν˜‘μ—… 링크

μ΅œμ’… ν”„λ‘œμ νŠΈμ—μ„œ μž‘μ„±

κ΅¬κΈ€λ“œλΌμ΄λΈŒ 링크

ν”Όκ·Έλ§ˆ 링크

ν”„λ‘œν† νƒ€μž… 링크

κ΅¬ν˜„λœ κΈ°λŠ₯ (ν”„λ‘œν† νƒ€μž…)

  • λͺ…μ†Œ 검색 (전ꡭ에 λŒ€ν•΄μ„œλ§Œ κ°€λŠ₯)

    • μž₯μ†Œ ν΄λ¦­ν•˜λ©΄ location μ—λŸ¬ 있음
  • μœ μ‚¬ λͺ…μ†Œ 검색

    • area
  • 'λ°λ‚˜' 버그 발견

    • μ˜ˆμ™Έ 처리 (μ—†λŠ” κ²°κ³Ό)

install_requirements μž‘μ„±μ„ μƒν™œν™”ν•©μ‹œλ‹€~!

μ•ŒνŒŒ -> λͺ©μš”μΌκΉŒμ§€ ν”Όλ“œλ°± λ°›κ³  κΈˆμšœλ‚ 

  1. Dense

ν”„λ‘œμ νŠΈ

  • μ›Ή μ„œλΉ„μŠ€ 이름
  • μ•„μ΄μ½˜

FE

  • μ»΄ν¬λ„ŒνŠΈ ꡬ쑰둜 λ³€κ²½
  • λ“œλžλ‹€μš΄ μΆ”κ°€ ν•„μš”
  • μœ μ‚¬ λͺ…μ†Œ κ²€μƒ‰μ—μ„œ λ“œλžλ‹€μš΄ 쑰건 λ³€κ²½
  • 응닡 보여주기
  • Logging page λ˜λŠ” μ»΄ν¬λ„ŒνŠΈ
  • error page

BE (FE μ—μ„œ λͺ¨λ“ˆν™” μž‘μ—…ν•œκ±° ν•„μš”ν•˜λ©΄ ν†‘μ£Όμ„Έμš©~!)

  • cookiecutter ν”„λ‘œμ νŠΈ ꡬ쑰 github μ—…λ‘œλ“œ
  • API λ¬Έμ„œ
  • Model API
  • Tour API
  • Log API
    • 여기에 μΆ”ν›„ μž‘μ—…
    • κΎΈμ€€ν•œ feedback data
  • DB ꡬ좕
    • cloud storage

Model

  • Sparse
  • Dense

데이터

  • dense ν›ˆλ ¨ query context pair에 λŒ€ν•œ μ˜μ‹¬
    • ν˜„ 방식 : Sparse κΈ°μ€€ 관련도 높은 λ¬Έμ„œ 끼리 κ²°ν•© 의견
    • μš°μ„  직접 보기
    • 리뷰, λΈ”λ‘œκ·Έ μƒμœ„ N κ°œλ§Œμ—μ„œ Sparse
    • context ->
    • 데이터 λŸ‰μœΌλ‘œ μ™•μ°½ λŠ˜λ €λ³΄λŠ”κ²ƒλ„... -> Pair 수λ₯Ό κ°€λŠ₯ν•œ λŠ˜λ €λ³΄λŠ” 방식
개인적으둜 μƒκ°ν•˜λŠ” ν…ŒμŠ€νŠΈ
  • μΆ”κ°€μ μœΌλ‘œ μœ μ‚¬ λͺ…μ†Œ κ²€μƒ‰μ—μ„œλŠ” pair 데이터에 μžˆλŠ” λͺ…μ†Œ 데이터에 λͺ¨λ“  context(κ°€λŠ₯ν•œ λ§Žμ€ λΈ”λ‘œκ·Έ 데이터)λ₯Ό μ‚¬μš©ν•΄λ³΄λŠ”κ²Œ μ–΄λ–€μ§€
  • 1. λΈ”λ‘œκ·Έ μ΅œμ†Œ 길이 100
    • 폴더λͺ… : 12/13 μ „μ²˜λ¦¬ + λΈ”λ‘œκ·Έ μ΅œμ†Œ len 100
    • μ΅œμ†Œ 길이에 λŒ€ν•œ 영ν–₯λ ₯ 뢄석
  • 2. [1] + λΈ”λ‘œκ·Έ 띄어쓰기 μ „μ²˜λ¦¬ μ§„ν–‰
    • 폴더λͺ… : 12/16 κΈ°μ‘΄ + 띄어쓰기
    • λΈ”λ‘œκ·Έ 띄어쓰기에 λŒ€ν•œ 영ν–₯λ ₯ 뢄석
  • 3. [1] + [2] + tokenizer input λ³€κ²½
    • 파일 μ—…λ‘œλ“œ μ˜ˆμ •
    • Sparse ν† ν¬λ‚˜μ΄μ € λ³€κ²½
      • 단 stemming 은 κ³ λ € μ•ˆν•¨ (μΆ”ν›„μƒκ°ν•΄λ³Όκ²Œμš”..)
      • νŠΉμˆ˜λ¬Έμžλ“€ 죄닀 κ³ λ € μ œμ™Έ (제거)
    • stopword 제거 버전은 λ§Œλ“€μ–΄λ΄μ•Όν•˜λ‚˜..?
  • 단 띄어쓰기λ₯Ό λ‹€μ‹œ μž‘λŠ” 것은 μ‹œκ°„μ΄ λ„ˆλ¬΄ 였래 κ±Έλ¦¬λ―€λ‘œ 띄어쓰기 μ „μ²˜λ¦¬ μ œμ™Έ (μ΄ν•˜ 갯수 30개 μ „λΆ€ 동일)
  • 4. context κ°―μˆ˜κ°€ 30 이상 (pair 5개)
    • 폴더λͺ… : 12/15 blog_limit30
    • context 초기 갯수의 영ν–₯λ ₯ 뢄석
  • 5. context κ°―μˆ˜κ°€ 100 이상 + pair 수 10개
    • 파일 μ—…λ‘œλ“œ μ˜ˆμ •
    • pair 갯수 영ν–₯λ ₯뢄석
  • 6. context κ°―μˆ˜κ°€ 30 이상 + pair 수 10개
    • 파일 μ—…λ‘œλ“œ μ˜ˆμ •

ν•˜λ©΄ 쒋은거

  • Load balancing
  • Docker
  • Kubernetes