유용한 데이터셋 - BD-SEARCH/MLtutorial GitHub Wiki
01. NLP
Multidomain Sentiment Analysis Dataset
sentiment analysis에 사용
IMDB Reviews
25,000건의 영화 리뷰. sentiment analysis에 사용
Stanford Sentiment Treebank
Rotten Tomatoes로부터 10,000 건의 리뷰. 다른 리뷰에 비해 길다. 25,000건의 영화 리뷰. sentiment analysis에 사용
Sentiment140
polarity, ID, tweet date, query, user, text를 포함하는 160,000 건의 트위터 데이터. 25,000건의 영화 리뷰. sentiment analysis에 사용
Twitter US Airline Sentiment
sentiment analysis에 사용
20 Newsgroups
20개 분야의 20,000개의 문서들의 집합
Reuters News Dataset
The WikiQA Corpus
QnA pair로 이루어진 데이터셋.
UCI’s Spambase
spam filtering에 유용한 데이터셋.
Yelp Reviews
Yelp의 5,000,000 개의 리뷰
WordNet
단어에 대해 동의어, 반의어 등을 포함하는 온톨로지형 데이터셋
Enron Dataset
email 툴을 더 깊게 이해하기 위한 500,000 개의 메시지 데이터셋
Amazon Reviews
18년 간의 아마존 3,500 만 개의 리뷰. user information, rating, plaintext review 포함
Google Books Ngrams
구글 책의 n-gram 문서들의 집합.
Blogger Corpus
blogger.com에서부터 얻은 681,277 개의 블로그 포스트에서 얻은 14,000 만 개의 단어들.
Wikipedia Links Data
1,300 만 개의 문서를 포함한 데이터셋.
Gutenberg eBooks List
구텐베르그 프로젝트. eBook 데이터셋.
Hansards Text Chunks of Canadian Parliament
36번째 캐나다 의회 기록에서 얻은 1,300 만 쌍의 말뭉치.
Jeopardy
퀴즈 쇼 Jeopardy에서 얻은 200,000 개의 QnA 데이터셋. information, category of question, show number, air date 포함.
SMS Spam Collection in English
5,574 개의 영어 스팸 SMS. 425 개의 텍스트는 Grumbletext 웹사이트에서 추출된 스팸 메시지
2000 HUB5 English
40개의 휴대폰에서 얻은 영어 음성 대화 데이터
LibriSpeech
여러 스피커가 읽은 1,000 시간의 영어 스피치 오디오 데이터. 각 책의 챕터로 이루어져 있음. 음성 인식 데이터로 사용.
Spoken Wikipedia Corpora
수백 시간의 오디오로 이루어져 있다. 영어, 독어, 네덜란드어로 기록된 위키피디아 기사 음성 데이터.
Free Spoken Digit Dataset
1,500 개의 숫자 영어 음성 데이터
TIMIT
640명의 미국인이 읽은 phonetically rich 문장들의 음성 데이터.
02. Vision
Moments
- page: http://moments.csail.mit.edu/
- paper: http://moments.csail.mit.edu/#paper
- git: https://github.com/metalbubble/moments_models
- you can download cached raw data(305GB), cached data (256*256, 30fps)
339개의 클래스(link. action recognizer에 많이 쓰인다.
UCF101
Kinetics
Reference
https://lionbridge.ai/datasets/the-best-25-datasets-for-natural-language-processing/