해보면 좋을 프로젝트들 - BD-SEARCH/MLtutorial GitHub Wiki
이라고 쓰고 해보고 싶은 프로젝트들을 써본다..
데이터는 어디서 모으고 내 맥은 과연 견딜 수 있을 것인가!
쓸만한 데이터들
텍스트 데이터
- tweepy : 트위터 데이터 크롤링 API. 무료 버전은 현재 시점부터 가능
- Naver 지식인 Q&A dataset : 네이버 지식인 2013 1년치
- Naver Sports chatting : 네이버 스포츠 채팅창 2011-2012
이미지 데이터
- CIFAR-10: 10개 카테고리로 되어 있는, 6만개의 32*32 크기의 이미지.
- COCO (Common Object in Context): 이미지의 object detection, segmentation과 image captioning을 위한 데이터셋.
- Fashion MNIST: 28*28 크기의 옷 이미지. 고전적인 MNIST를 대체하기 위한 목적. 티셔츠, 코트 등 10개의 category로 되어 있음.
- Google Landmark Dataset: 전 세계의 랜드마크(예: 파리의 에펠탑, 런던의 빅벤 등) 15,000여 종류, 122만 여 장의 사진으로 구성된 데이터셋. 각각의 랜드마크는 랜드마크 이름이 아니라 임의의 id로 지정되어 있음에 유의.
- imagenet : 일반적인 object detection을 위한 데이터
- MNIST : 0-9 사이의 28*28 크기의 필기체 이미지
기타
- AI open inovation: 법률/특허/관광/농업/일반상식/이미지/헬스케어 등 정부제공 데이터셋(말뭉치,이미지,음성). 데이터셋은 계속 추가될 예정임.
해볼만한 프로젝트
이미지 처리
- 국기 인식하는 모델
- 사람 얼굴 인식하는 모델 (사람 얼굴하는 것 따로 / 누구인지 분석하는 vgg)
- 그림을 전체적으로 이해해서 자연 언어로 설명하는 모델
- 한국 내 주요 랜드마크를 추출하여 자동으로 GPS 좌표를 매기는 모델
- GAN (valina, DCGAN, WGAN..)을 활용하여 이미지 생성하는 모델
- 빈 주차 자리 인식
Reinforcement learning
- 쿼리도 : repo 이동
Clustering
- 긴 글대상으로 클러스터링 해보기
Image
- colorizer (웹툰 대상으로)
Word NLTK
- 한국어 관련 api 사용해보기 (KoNLPy)
- Word2Vec 만들어보기.
- 단어 벡터를 만들 때 사용한 데이터에 따른 벡터의 변화 살펴보기.
- 한글 형태소 분석기 업글 버전 (or조사떼기)
- 한글 버전 vader sentimental (감정분석)
- 형태소분석기 종류
- Naver sentiment movie corpus v1.0: 네이버 영화 한줄평 데이터 20만건 (긍/부정)
- 딥러닝으로 수능 영어 풀기 : repo 이동
- 형태소 분석기 여러 개 비교분석하기
Security
- 캡쳐 불가
보조 툴
- 모델 내부를 시각화하여 보여주는 Tool
모델
- RNN 사용
기타 (딥러닝과 관련무)
- 카카오 엘레베이터 : 네이버 알고리즘 대회도 궁금
homepage
- 회원가입
- 아이디 + 중복확인 / 비밀번호 만들기 + 확인
- 토크나이즈 해서 안전한 전송
- 이메일 / 유효한 이메일
- 이메일 인증 시간
- 로그인 / 로봇인지 아닌지 확인하는 과정 : ANN