회고0704 - steelbear/HMG_Softeer_DE GitHub Wiki

  • 웹페이지 크롤링이 생각보다 쉽지 않음
    • 보이지 않는 태그까지 고려하며 원하는 태그를 골라내야 함
    • 나라별 대륙 정보를 얻기 위해 각 대륙 위키에서 소속 나라 리스트를 크롤링
      • 페이지마다 테이블 위치와 개수가 달라 고생함
  • 데이터 전처리의 중요성
    • GDP와 대륙 테이블에서 가져올때 나라 이름이 다른 경우가 있었음
      • 간략화 (Democracy Republic of the Congo -> DR Congo)
      • 주석 링크
      • 속령 표기 (미국령, 영국령 등)
    • 전처리된 깔끔한 데이터가 얼마나 귀한지 몸소 체험함
  • ETL process대로 잘 나눴을려나?
    • DB를 적용하는데 여러 함수를 변경해야 했음
    • pd.DataFrame에서 SQLite로의 변화는 무엇이였을까
      • 데이터를 전달하는 매개체의 변화라서 코드 수정이 많았을까?