How to use parquet - kabupen/optiver-realized-volatility-prediction GitHub Wiki

parquet ファイルについて

csv などが行指向の(行単位でデータを扱う、1レコードが1行に相当する)データ形式であるのに対して、parquet は列指向のデータ形式である。

読み込み

book_train.parquetはディレクトリであり、その配下には stock_id=XX というサブディレクトリが並んでいる。以下の用に全てをロードすることができる。

book_train = pd.read_parquet('../input/optiver-realized-volatility-prediction/book_train.parquet')

この場合、全ての情報をメモリに展開するので(〜GB)動作はかなり重くなる(手元のmacbookでは重すぎた)。しかし、このparquetファイルはstock_idでパーティション分けされており、上記のように全てを読み込む必要はない。

book_train = pd.read_parquet('../input/optiver-realized-volatility-prediction/book_train.parquet/stock_id=0')

と読むことで、stock_id=0のデータが読み込まれる