Геномика по одной клетке - ryavorsky/RuBioMed GitHub Wiki
Большинство бактерий в природе не может быть клонировано в лабораторных условиях, и поэтому их [ДНК]] нельзя секвенировать, используя только существующие технологии [секвенирования «следующего поколения» (NGS). Невозможность клонирования — основное ограничение, с которым сталкиваются в различных исследованиях, от проекта «человеческий микробиом» (Human Microbiome Project) [3, 6] до исследований по обнаружению новых антибиотиков [9].
«Человеческий микробиом» и обнаружение антибиотиков — лишь два примера из множества задач, на которые одноклеточная геномика может повлиять революционно. Последние продвижения в экспериментальной [4, 7, 8, 10] и вычислительной [1] её составляющих открыли возможность исследовать геномы отдельных бактерий. В частности, в [1] продемонстировано, что таким способом можно обнаружить достаточное число генов для того, чтобы понять, как проходят метаболические процессы в бактерии. Для многих проектов возможность узнать большую часть генов — результат, сопоставимый по значению с доступностью целого генома.
В настоящее время для аплификации ДНК в одноклеточной геномике используется метод множественного замещения полинуклеотидных цепей (MDA). Особенностями метода являются значительная неравномерность покрытия генома ридами, присутствие химерических ридов, а также ридов, связанных парной информацией. В исследовании [12] отмечено, что задачи, стоящие перед одноклеточной геномикой, являются скорее вычислительными, чем экспериментальными. Недавняя статья [5] показала, что существующие сборщики не дают удовлетровительного результата даже в сборке единственной синтетазы нерибособных пептидов, не говоря о целом геноме.
Читсаз и др. в 2011 г. [1] представили программу по сборке геномов E+V-SC, сочетающую части ассемблера EULER-SR и модифицированные модули программы Velvet. Получившийся сборщик показал существенное улучшение результата в восстановлении ДНК по одной клетке. Тем не менее, авторы ассемблера осознавали, что для полноценного использования данных нельзя просто модифицировать существующие инструменты — небоходимо изменить алгоритмический подход в целом.
Мы представляем SPAdes («Спейдз»), cборщик геномов, предназначенный для работы с данными как из одной клетки, так и из множества клонированных бактерий. В ассемблере применяется множество новых алгоритмических идей и улучшений по сравнению с существующими программами для сборки геномов.