유용한 데이터셋 - BD-SEARCH/MLtutorial GitHub Wiki

01. NLP

Multidomain Sentiment Analysis Dataset

sentiment analysis에 사용

IMDB Reviews

25,000건의 영화 리뷰. sentiment analysis에 사용

Stanford Sentiment Treebank

Rotten Tomatoes로부터 10,000 건의 리뷰. 다른 리뷰에 비해 길다. 25,000건의 영화 리뷰. sentiment analysis에 사용

Sentiment140

polarity, ID, tweet date, query, user, text를 포함하는 160,000 건의 트위터 데이터. 25,000건의 영화 리뷰. sentiment analysis에 사용

Twitter US Airline Sentiment

sentiment analysis에 사용

20 Newsgroups

20개 분야의 20,000개의 문서들의 집합

Reuters News Dataset

The WikiQA Corpus

QnA pair로 이루어진 데이터셋.

UCI’s Spambase

spam filtering에 유용한 데이터셋.

Yelp Reviews

Yelp의 5,000,000 개의 리뷰

WordNet

단어에 대해 동의어, 반의어 등을 포함하는 온톨로지형 데이터셋

Enron Dataset

email 툴을 더 깊게 이해하기 위한 500,000 개의 메시지 데이터셋

Amazon Reviews

18년 간의 아마존 3,500 만 개의 리뷰. user information, rating, plaintext review 포함

Google Books Ngrams

구글 책의 n-gram 문서들의 집합.

Blogger Corpus

blogger.com에서부터 얻은 681,277 개의 블로그 포스트에서 얻은 14,000 만 개의 단어들.

Wikipedia Links Data

1,300 만 개의 문서를 포함한 데이터셋.

Gutenberg eBooks List

구텐베르그 프로젝트. eBook 데이터셋.

Hansards Text Chunks of Canadian Parliament

36번째 캐나다 의회 기록에서 얻은 1,300 만 쌍의 말뭉치.

Jeopardy

퀴즈 쇼 Jeopardy에서 얻은 200,000 개의 QnA 데이터셋. information, category of question, show number, air date 포함.

SMS Spam Collection in English

5,574 개의 영어 스팸 SMS. 425 개의 텍스트는 Grumbletext 웹사이트에서 추출된 스팸 메시지

2000 HUB5 English

40개의 휴대폰에서 얻은 영어 음성 대화 데이터

LibriSpeech

여러 스피커가 읽은 1,000 시간의 영어 스피치 오디오 데이터. 각 책의 챕터로 이루어져 있음. 음성 인식 데이터로 사용.

Spoken Wikipedia Corpora

수백 시간의 오디오로 이루어져 있다. 영어, 독어, 네덜란드어로 기록된 위키피디아 기사 음성 데이터.

Free Spoken Digit Dataset

1,500 개의 숫자 영어 음성 데이터

TIMIT

640명의 미국인이 읽은 phonetically rich 문장들의 음성 데이터.

02. Vision

Moments

339개의 클래스(link. action recognizer에 많이 쓰인다.

UCF101

Kinetics

Reference

https://lionbridge.ai/datasets/the-best-25-datasets-for-natural-language-processing/