해보면 좋을 프로젝트들 - BD-SEARCH/MLtutorial GitHub Wiki

이라고 쓰고 해보고 싶은 프로젝트들을 써본다..

데이터는 어디서 모으고 내 맥은 과연 견딜 수 있을 것인가!

쓸만한 데이터들

텍스트 데이터

이미지 데이터

  • CIFAR-10: 10개 카테고리로 되어 있는, 6만개의 32*32 크기의 이미지.
  • COCO (Common Object in Context): 이미지의 object detection, segmentation과 image captioning을 위한 데이터셋.
  • Fashion MNIST: 28*28 크기의 옷 이미지. 고전적인 MNIST를 대체하기 위한 목적. 티셔츠, 코트 등 10개의 category로 되어 있음.
  • Google Landmark Dataset: 전 세계의 랜드마크(예: 파리의 에펠탑, 런던의 빅벤 등) 15,000여 종류, 122만 여 장의 사진으로 구성된 데이터셋. 각각의 랜드마크는 랜드마크 이름이 아니라 임의의 id로 지정되어 있음에 유의.
  • imagenet : 일반적인 object detection을 위한 데이터
  • MNIST : 0-9 사이의 28*28 크기의 필기체 이미지

기타

  • AI open inovation: 법률/특허/관광/농업/일반상식/이미지/헬스케어 등 정부제공 데이터셋(말뭉치,이미지,음성). 데이터셋은 계속 추가될 예정임.

해볼만한 프로젝트

이미지 처리

  • 국기 인식하는 모델
  • 사람 얼굴 인식하는 모델 (사람 얼굴하는 것 따로 / 누구인지 분석하는 vgg)
  • 그림을 전체적으로 이해해서 자연 언어로 설명하는 모델
  • 한국 내 주요 랜드마크를 추출하여 자동으로 GPS 좌표를 매기는 모델
  • GAN (valina, DCGAN, WGAN..)을 활용하여 이미지 생성하는 모델
  • 빈 주차 자리 인식

Reinforcement learning

Clustering

  • 긴 글대상으로 클러스터링 해보기

Image

  • colorizer (웹툰 대상으로)

Word NLTK

  • 한국어 관련 api 사용해보기 (KoNLPy)
  • Word2Vec 만들어보기.
  • 단어 벡터를 만들 때 사용한 데이터에 따른 벡터의 변화 살펴보기.
  • 한글 형태소 분석기 업글 버전 (or조사떼기)
  • 한글 버전 vader sentimental (감정분석)
  • 형태소분석기 종류
  • Naver sentiment movie corpus v1.0: 네이버 영화 한줄평 데이터 20만건 (긍/부정)
  • 딥러닝으로 수능 영어 풀기 : repo 이동
  • 형태소 분석기 여러 개 비교분석하기

Security

  • 캡쳐 불가

보조 툴

  • 모델 내부를 시각화하여 보여주는 Tool

모델

  • RNN 사용

기타 (딥러닝과 관련무)

homepage

  • 회원가입
  • 아이디 + 중복확인 / 비밀번호 만들기 + 확인
  • 토크나이즈 해서 안전한 전송
  • 이메일 / 유효한 이메일
  • 이메일 인증 시간
  • 로그인 / 로봇인지 아닌지 확인하는 과정 : ANN