회고0710 - steelbear/HMG_Softeer_DE GitHub Wiki

개인 회고

  • 웹크롤링 문제 해결
    • 어제 35번 페이지에서 더이상 넘어가지 못했던 이유를 이제야 찾음
    • 페이지에서 리뷰를 크롤링할 때 예상했던 레이아웃과 달라서 Selenium이 찾지 못함
      • xpath로 찾다보니 생겨버린 문제
    • 왜 못찾았는가
      • error 문구를 제대로 보지 못함
        • 작디 작은 터미널에서 보느라 어디서 막혔는지를 볼 생각을 못함
      • driver.implicitWait
        • 어떤 동작을 하는지 제대로 알지 못함
        • 30초동안 지정한 엘리먼트를 찾으려고 하는데 계속 30초가 되기전에 강제종료 하느라 에러도 볼 생각을 못함
        • 내가 제대로 파악하지 못한 것도 맞지만 공식 문서가 자세히 설명 좀 해주었으면 좋겠다
          • 이전에도 서드파티 라이브러리 쓸 때마다 느끼지만, 아직도 자주 느껴진다. 코드를 뜯어보게 만듦.
  • 팀 프로젝트 아이디어
    • 상품 리뷰 데이터를 보니 단순한 word cloud로는 좋은 정보를 얻기가 어려워 보임
      • 평점이 리뷰 내용을 말해주지 않음
        • 한국만 그런진 모르겠지만, 왠만큼 별로가 아닌 이상 최소 3/5 는 준다
      • 한 리뷰 내에 장단점을 모두 적는 경우가 있다
        • 이를 걸러내려면 수작업 필요
      • 상품 정보와는 크게 관련없는 단어 필터링 필요
    • 추가 가공 아이디어
      • 리뷰 내에서 장단점을 구분해 모으기
        • 한 리뷰 내에서 장단점을 적지만 그게 항상 평점에 반영되지는 않는 경우가 많다
        • 다만 자동으로 장단점 문장을 구분하려면 라벨링이 필요
      • 주어진 키워드만 관련된 단어들만 word cloud 뛰우기
        • 기존 word cloud에 검색 기능 추가
          • 적절한 word embedding만 구하면 구현은 가능
      • 순위로 상위 제품과 하위 제품으로 나누고 각자 word cloud 띄우기
        • 맨 처음에 생각했던 아이디어
        • 위에서 말한 word filtering을 이용하면 도움되지 않을까?
          • 예) 닭고기 육질에 대해 상위 제품과 하위 제품은 각자 리뷰에서 어떤 반응이 나왔을까?
    • 사실 가장 큰 문제는 아직도 데이터 크롤링이 안끝남
      • 한 리뷰당 100개라도 해서 시스템이라도 만들어보자

팀 회고

keep

  • 포기하지 않고 끝까지 구현함.
  • 각자 계획한 2개의 주제 모두 구현 성공함.

problem

  • 형태소 분석의 결과가 생각보다 잘 안나옴.
  • 점심을 너무 많이 먹어서 힘듬( 과식 금지)

try

  • 금일처럼 논의해야할 팀 활동이 포함된 미션을 먼저 하고, 나머지 미션들은 집에서 수행하고 와서 공유하기
  • 내일까지 주제 2개 중에 하나 정하기? (비즈니스 가치가 더 높은 거라던지 ,,or 서비스로 판매할 가치가 있거나,,지금 당장 서비스로 판매할만큼 완성도가 높거나)
  • 어제 안되던게 오늘 해결됐으니까 포기말자! 라는 마인드 갖고 살기.