회고0710 - steelbear/HMG_Softeer_DE GitHub Wiki
개인 회고
- 웹크롤링 문제 해결
- 어제 35번 페이지에서 더이상 넘어가지 못했던 이유를 이제야 찾음
- 페이지에서 리뷰를 크롤링할 때 예상했던 레이아웃과 달라서 Selenium이 찾지 못함
- 왜 못찾았는가
- error 문구를 제대로 보지 못함
- 작디 작은 터미널에서 보느라 어디서 막혔는지를 볼 생각을 못함
driver.implicitWait
- 어떤 동작을 하는지 제대로 알지 못함
- 30초동안 지정한 엘리먼트를 찾으려고 하는데 계속 30초가 되기전에 강제종료 하느라 에러도 볼 생각을 못함
- 내가 제대로 파악하지 못한 것도 맞지만 공식 문서가 자세히 설명 좀 해주었으면 좋겠다
- 이전에도 서드파티 라이브러리 쓸 때마다 느끼지만, 아직도 자주 느껴진다. 코드를 뜯어보게 만듦.
- 팀 프로젝트 아이디어
- 상품 리뷰 데이터를 보니 단순한 word cloud로는 좋은 정보를 얻기가 어려워 보임
- 평점이 리뷰 내용을 말해주지 않음
- 한국만 그런진 모르겠지만, 왠만큼 별로가 아닌 이상 최소 3/5 는 준다
- 한 리뷰 내에 장단점을 모두 적는 경우가 있다
- 상품 정보와는 크게 관련없는 단어 필터링 필요
- 추가 가공 아이디어
- 리뷰 내에서 장단점을 구분해 모으기
- 한 리뷰 내에서 장단점을 적지만 그게 항상 평점에 반영되지는 않는 경우가 많다
- 다만 자동으로 장단점 문장을 구분하려면 라벨링이 필요
- 주어진 키워드만 관련된 단어들만 word cloud 뛰우기
- 기존 word cloud에 검색 기능 추가
- 적절한 word embedding만 구하면 구현은 가능
- 순위로 상위 제품과 하위 제품으로 나누고 각자 word cloud 띄우기
- 맨 처음에 생각했던 아이디어
- 위에서 말한 word filtering을 이용하면 도움되지 않을까?
- 예) 닭고기 육질에 대해 상위 제품과 하위 제품은 각자 리뷰에서 어떤 반응이 나왔을까?
- 사실 가장 큰 문제는 아직도 데이터 크롤링이 안끝남
- 한 리뷰당 100개라도 해서 시스템이라도 만들어보자
팀 회고
keep
- 포기하지 않고 끝까지 구현함.
- 각자 계획한 2개의 주제 모두 구현 성공함.
problem
- 형태소 분석의 결과가 생각보다 잘 안나옴.
- 점심을 너무 많이 먹어서 힘듬( 과식 금지)
try
- 금일처럼 논의해야할 팀 활동이 포함된 미션을 먼저 하고, 나머지 미션들은 집에서 수행하고 와서 공유하기
- 내일까지 주제 2개 중에 하나 정하기? (비즈니스 가치가 더 높은 거라던지 ,,or 서비스로 판매할 가치가 있거나,,지금 당장 서비스로 판매할만큼 완성도가 높거나)
- 어제 안되던게 오늘 해결됐으니까 포기말자! 라는 마인드 갖고 살기.