Как мы связаны? Простой рабочий процесс для поиска семейств генов

Соавтор, Уилфрид Хэрти, объяснил, почему этот инструмент так полезен для биологов: «Программное обеспечение, разработанное в Институте Эрлхэма, позволяет ученым исследовать представляющие интерес виды с помощью гибкого и воспроизводимого конвейера. Эффективность нашего рабочего процесса оценивалась на сборках генома позвоночных животных. различные качества (утконос, свинья, лошадь, собака, мышь и человек).

Виды были отобраны для оценки влияния качества генома на идентификацию семейств генов. Геномы мыши, собаки и человека имеют высокое качество, тогда как три других находятся в разных этапы завершения анализа ».Основанный на существующем конвейере EnsemblCompara Gene Trees Ensembl и расширяющий его, рабочий процесс GeneSeqToFamily устраняет многие сложные предпосылки процесса, такие как необходимость использования командной строки для установки большого количества отдельных инструментов, путем преобразования всего процесса в Galaxy; гораздо более простая платформа в использовании.Важно отметить, что рабочий процесс легко настраивается, что позволяет пользователям выбирать параметры, изменять инструменты и запускать программное обеспечение на своих собственных генах без необходимости использования базы данных Ensembl.

GeneSeqToFamily содержит не только рабочий процесс, но и ряд новых автономных инструментов Galaxy, включая TreeBeST, hcluster_sg, T-Coffee и ETE. Программное обеспечение, разработанное в EI Анилом Танки и Никола Соранцо из группы инфраструктуры данных, упрощает процесс поиска и создания филогенетических деревьев с использованием ряда открытых платформ и баз данных. Анил Танки, научный программист, сказал: «Мы рады представить нашу работу в открытой области, где это позволяет биологам и биоинформатикам использовать Ensembl Compara GeneTrees Pipeline в простом графическом пользовательском интерфейсе и при необходимости изменять его».

Команда надеется, что новый рабочий процесс поможет пользователям, незнакомым со сложностями, связанными с использованием Compara, иметь возможность более легко анализировать наборы филогенетических данных, объединяя ряд полезных инструментов семейства генов в одном рабочем процессе Galaxy. Пользователи могут либо выбрать существующие базы данных Ensembl для использования в качестве эталонных наборов для своего анализа, либо предоставить свои собственные данные в том же формате, при этом предоставляются инструменты, которые могут помочь.Earlham Institute стремится предоставлять инструменты и алгоритмы для поддержки, включения и развития исследований в области вычислительной биологии и наук о жизни, а такие проекты, как Galaxy, помогают открыть доступ к ряду научных инструментов и баз данных.

Группа инфраструктуры данных, возглавляемая доктором Робом Дэйви, также поддерживает такие ресурсы, как CyVerse UK и COPO, которые, наряду с Galaxy, расширяют доступность и удобство использования вычислительных ресурсов для более широкого научного сообщества в Великобритании и за рубежом благодаря национальным возможностям EI в электронной -Инфраструктура.