How to use parquet - kabupen/optiver-realized-volatility-prediction GitHub Wiki

parquet ファイルについて

csv などが行指向の（行単位でデータを扱う、1レコードが1行に相当する）データ形式であるのに対して、parquet は列指向のデータ形式である。

book_train.parquetはディレクトリであり、その配下には stock_id=XX というサブディレクトリが並んでいる。以下の用に全てをロードすることができる。

book_train = pd.read_parquet('../input/optiver-realized-volatility-prediction/book_train.parquet')

この場合、全ての情報をメモリに展開するので（〜GB）動作はかなり重くなる（手元のmacbookでは重すぎた）。しかし、このparquetファイルはstock_idでパーティション分けされており、上記のように全てを読み込む必要はない。

book_train = pd.read_parquet('../input/optiver-realized-volatility-prediction/book_train.parquet/stock_id=0')

と読むことで、stock_id=0のデータが読み込まれる