회고0704 - steelbear/HMG_Softeer_DE GitHub Wiki
- 웹페이지 크롤링이 생각보다 쉽지 않음
- 보이지 않는 태그까지 고려하며 원하는 태그를 골라내야 함
- 나라별 대륙 정보를 얻기 위해 각 대륙 위키에서 소속 나라 리스트를 크롤링
- 페이지마다 테이블 위치와 개수가 달라 고생함
- 데이터 전처리의 중요성
- GDP와 대륙 테이블에서 가져올때 나라 이름이 다른 경우가 있었음
- 간략화 (Democracy Republic of the Congo -> DR Congo)
- 주석 링크
- 속령 표기 (미국령, 영국령 등)
- 전처리된 깔끔한 데이터가 얼마나 귀한지 몸소 체험함
- GDP와 대륙 테이블에서 가져올때 나라 이름이 다른 경우가 있었음
- ETL process대로 잘 나눴을려나?
- DB를 적용하는데 여러 함수를 변경해야 했음
- pd.DataFrame에서 SQLite로의 변화는 무엇이였을까
- 데이터를 전달하는 매개체의 변화라서 코드 수정이 많았을까?