How to use parquet - kabupen/optiver-realized-volatility-prediction GitHub Wiki
parquet ファイルについて
csv などが行指向の(行単位でデータを扱う、1レコードが1行に相当する)データ形式であるのに対して、parquet は列指向のデータ形式である。
読み込み
book_train.parquetはディレクトリであり、その配下には stock_id=XX というサブディレクトリが並んでいる。以下の用に全てをロードすることができる。
book_train = pd.read_parquet('../input/optiver-realized-volatility-prediction/book_train.parquet')
この場合、全ての情報をメモリに展開するので(〜GB)動作はかなり重くなる(手元のmacbookでは重すぎた)。しかし、このparquetファイルはstock_idでパーティション分けされており、上記のように全てを読み込む必要はない。
book_train = pd.read_parquet('../input/optiver-realized-volatility-prediction/book_train.parquet/stock_id=0')
と読むことで、stock_id=0のデータが読み込まれる