Существует один вопрос, который помогает отбросить всю "воду" и раскрывает реальные ценности компании: "Какой человек не должен работать в вашей компании?". 🔗
Хорошая задача для интервью на Middle+. Есть 2 источника данных. Один файл размером в ТБ. И есть еще 28 файлов поменьше, которые все вместе занимают пару-тройку ТБ. Нужно максимально эффективным IO (другими словами 2 раза по файлу не ходить чтобы терабайты 2 раза не читать) прочитать записи из всех этих файлов, типа параллельно поскольку интересует скорость, и записать результат в сортированный по времени файл и сплитенный по символу (это все биржевые данные). Есть один сортированный файл, есть 28 других сортированных файлов, надо на лету уметь из всех 29 файлов читать, делать это эффективно и гарантированно сортированно записывать в 15 000 новых файлов поскольку там символов 15 000 будет. В память они все не влазят потому что их терабайты.