코딩하기전에 - moabogey/docs GitHub Wiki

봇을 만들기 위해서 알아 두면 좋은 것들을 정리해 놓았습니다.

1. 주제 및 사이트 정하기

주제 및 사이트를 정하는데 있어서 몇가지 사항을 따라야 합니다.

공개된 사이트에서 데이터를 수집한다.

로그인이 필요하거나 사용자의 입력을 요구하는 사이트에서의 데이터 수집은 할 수 없습니다.

합법적인 사이트에서 데이터를 수집한다.

불법 및 유해 사이트에서의 데이터 수집은 할 수 없습니다.

새로운 데이터가 꾸준하게 올라오는 사이트

하루에 최소 한 번 이상 데이터가 업데이트 되는 사이트를 대상으로 합니다.

사용자에게 즐거움을 주는 주제

주제는 어떠한 것도 허용이 됩니다. 다만, 모아서 볼 만한 가치가 있는 주제라면 사용자들이 더 많이 사용하게 될 것입니다.

2. 파이썬

코딩에 사용되는 프로그래밍 언어는 파이썬을 사용합니다. 파이썬은 세계적으로 인기가 있는 언어이고 특히 코딩을 처음하는 분들이 쉽게 시작할 수 있는 언어입니다.

파이썬을 처음 시작하시는 분들은 점프 투 파이썬을 추천합니다. 파이썬에 대해 쉽고 자세히 설명이 되어 있습니다.

파이썬 모듈

데이터를 수집하기 위해서 requests와 beautifulsoup4 모듈을 사용합니다. 모듈은 특정한 기능들을 모아 놓은 것으로 힘들게 코딩할 필요 없이 가져다가 사용하면 됩니다. 예제 코드를 통해서 설명을 드릴 예정이지만 좀더 자세한 내용을 알고 싶은 분들은 아래의 사이트를 참고 하시기 바랍니다.

Requests: HTTP for Humans

Beautiful Soup Documentation

3. HTML, CSS, Javascript

데이터를 수집하기 위해서는 HTML의 기본 구조 및 태그에 대해서 어느 정도는 알고 있어야 합니다. 트위터나 인스타그램의 HTML을 보면 헉! 소리가 나올 정도로 복잡하고 난해합니다. 그러나 겁먹을 필요가 전혀 없습니다. 필요한 데이터를 찾고 수집하기 위해서는 전문적인 지식은 필요가 없습니다. 봇을 만들겠다는 분명한 목적이 있고, 훌륭한 개발 도구가 준비되어 있으니 마음만 먹으면 얼마든지 해 낼 수 있습니다.

HTML을 처음 시작하시는 분들은 생활코딩을 추천합니다. 동영상 강의로 되어 있어서 부담없이 학습을 할 수 있습니다.

4. Git

코드를 저장하고 관리하기 위해서 Git에 대해서 기본적인 기능은 알고 있어야 합니다.

git - 간편 안내서에 기본적인 사용법이 나와 있으니 참고 하시기 바랍니다.

5. 수집하는 데이터 형식

인터넷에 존재하는 전세계의 모든 사이트에 대해서 공개된 데이터를 수집하는 것이 가능하지만 데이터의 형식은 정해져 있습니다. 또한 반듯이 수집해야 하는 데이터와 수집하지 않아도 되는 데이터가 있습니다. 아래는 수집하는 데이터의 타입과 수집 조건을 표로 나타내고 있습니다.

필드 타입 수집 조건 설명
title String 필수 제목
desc String 선택 요약
image String 선택 이미지 위치(URL)
url String 필수 포스트 위치(URL)
siteName String 필수 사이트 이름
features String 선택 특징 (장르 등등)
createdBy String 필수 작성자
createdAt datetime 필수 작성 날짜 및 시간
timeStamp datetime 필수 수집 날짜 및 시간

코드 예제 분석에서 좀 더 자세히 알아 보도록 하겠습니다.