Interview - gusenov/kb GitHub Wiki

Books

Podcasts

  • Радио-Т Подкаст 920 00:38:20
    • Хорошая задача для интервью на Middle+. Есть 2 источника данных. Один файл размером в ТБ. И есть еще 28 файлов поменьше, которые все вместе занимают пару-тройку ТБ. Нужно максимально эффективным IO (другими словами 2 раза по файлу не ходить чтобы терабайты 2 раза не читать) прочитать записи из всех этих файлов, типа параллельно поскольку интересует скорость, и записать результат в сортированный по времени файл и сплитенный по символу (это все биржевые данные). Есть один сортированный файл, есть 28 других сортированных файлов, надо на лету уметь из всех 29 файлов читать, делать это эффективно и гарантированно сортированно записывать в 15 000 новых файлов поскольку там символов 15 000 будет. В память они все не влазят потому что их терабайты.