ChemNet
 
Химический факультет МГУ
А.Леск Введение в биоинформатику

А. Леск
Введение в биоинформатику

Перевод с английского
под редакцией
доктора биол. наук, профессора А. А. Миронова
и доктора хим. наук, профессора В. К. Швядаса
ISBN 978-5-94774-501-6 (русск.)
ISBN 0-19-925196-7 (англ.)

      В учебном издании, написанном английским ученым - пионером в использовании приемов информатики в биологических исследованиях, ведущим преподавательскую работу в Кембриджском университете, изложены основы информационных технологий в применении к биологическим наукам. Приведены тексты некоторых программ, упражнения и задачи.
Для студентов университетов и научных работников.

Предисловие редакторов русского издания

Современная биоинформатика возникла в конце 70-х годов XX в. с появлением эффективных методов расшифровки последовательностей ДНК. Датой выделения биоинформатики в отдельную научную область можно считать 1980 г., когда вышел первый номер журнала Nucleic Acids Research, целиком посвященный компьютерным методам анализа последовательностей. Важной вехой в становлении и развитии биоинформатики стал проект по секвенированию генома человека. Именно с этого времени биоинформатика перестала быть только вспомогательным инструментом. При переходе к анализу полных геномов компьютерные методы информационного анализа стали играть настолько важную роль, что эти исследования вылились в самостоятельное научное направление. Геномы содержали большое количество генов, для многих из которых не было никаких экспериментальных данных. Неисследованные гены необходимо было найти в геноме и предсказать их функцию. Это должно было привести к отбору наиболее интересных участков генома с целью их последующего изучения и благодаря рациональному планированию экспериментальной работы.
Огромную роль в развитии технологии чтения генетической информации сыграло развитие компьютерной техники и вычислительных методов. Неудивительно, что интенсивное развитие биоинформатики совпало по времени с победным шествием компьютерных технологий. Это лишний раз подтвердило, что глубина научного знания чрезвычайно сильно зависит от технических возможностей. Другой важнейшей вехой в развитии биоинформатики стало возникновение и повсеместное распространение технологий Всемирной сети - Интернета. Большое число разнообразных баз данных и программных инструментов теперь доступны через Интернет. Биоинформатика, пожалуй, является одной из тех областей науки, которые в очень большой степени зависимы от Интернета и успешно развиваются благодаря Интернету. Следует подчеркнуть, что очень важное для биологии и медицины политическое решение об открытости сложнейшего биологического текста современности - генома человека - сделало эту информацию по-настоящему доступной для ученых всего мира лишь благодаря Интернету.
Сегодня мы находимся на начальном этапе использования генетической информации о живой материи, однако развитие все более эффективных методов расшифровки биологических текстов и разработка методов биоинформатики позволяет надеяться на серьезный прогресс в понимании строения, механизмов функционирования и регуляции живых систем. В результате становится возможным изучение и понимание все более сложных биологических систем, появляется возможность их системного исследования, установление эволюционных связей в живой природе, создание новых биотехнологий, лекарственных препаратов и методов лечения. Биоинформатика в существенной степени уже способствовала развитию фундаментальных знаний в самых разных областях науки, а не только в биологии и медицине. На очереди, например, совершенно новые возмолсности в исследовании истории развития человечества и миграции народов. Благодаря развитию методов биоинформатики геногеография может отследить путь распространения людей по нашей планете, начиная от Адама, анализ индивидуальных особенностей генома представляет неограниченные возможности персонифицированной медицины и индивидуального развития каждого человека. Очевиден огромный прикладной потенциал биоинформатики, причем ее роль важна как для медицины, так и для самых различных технологий, где и используются элементы и принципы функционирования живых систем.
Уже сегодня, основываясь на установленных при помощи биоинформатики механизмах регуляции метаболизма микроорганизмов, созданы промышленные процессы получения аминокислот и других ценных веществ и материалов, выявлены молекулярные мишени для создания новых лекарственных препаратов и методов лечения. В то же время значительную часть генетической информации еще следует расшифровать и открыть новые возможности использования этого знания на благо человечества. Таким образом, биоинформатика - одно из наиболее актуальных направлений науки о человеке и окружающей среде.
Вниманию читателя предлагается перевод известного учебника Артура Леска "Введение в биоинформатику". Эта книга является именно введением в предмет, поскольку, как уже подчеркивалось, современная биоинформатика чрезвычайно быстро развивается, что широко освещается в многочисленных международных научных журналах и на регулярных конференциях. В книге значительное внимание уделяется развитию практических навыков и решению типовых биологически осмысленных задач. К сожалению, биоинформатика, и особенно то, что связано с Интернетом, развивается столь быстро, что в книге можно встретить уже несколько устаревшие сведения и неточности (о чем в тексте сделаны соответствующие замечания редакторов перевода). За рамками книги остался ряд важных задач биоинформатики - распознавание генов, предсказание вторичной структуры РНК, поиск мотивов, анализ экспрессии генов и др. Однако несмотря на эти издержки, книга послужит ценным пособием для самого широкого круга читателей. Она полезна не только для студентов и аспирантов, приступающих к изучению и использованию биоинформатики, но и для специалистов, работающих в различных областях наук о живой материи. Важно, что главы книги сопровождаются примерами решения реальных биологических задач и интересными упражнениями.
Первичный перевод книги был осуществлен студентами Факультета биоинженерии и биоинформатики МГУ имени М. В. Ломоносова при поддержке преподавателей кафедры английского языка. Большую помощь при переводе гл. 5 оказал канд. хим. наук Г. Г. Чилов. Существенный вклад в подготовке русской версии книги внесен редактором перевода канд. хим. наук Н. А. Аникиным. Некоторые затруднения при переводе и редактировании были связаны с необходимостью использования уже сложившейся терминологии, которая во многих случаях представляет собой "кальку" с английского (как и в ряде других наук). Так, например, выражение "дизайн лекарств" отражает весьма сложный путь, который следует пройти при создании и оптимизации структур лекарственных препаратов, имеющих объектом воздействия конкретные молекулярные мишени (а не процесс предпродажного оформления приобретаемой субстанции). Однако мы рассчитываем, что даже в тех случаях, когда незнакомый новый термин может иметь разные значения, читатель легко установит его смысл и в дальнейшем сможет легко ориентироваться в русскоязычной научной литературе.
Надеемся, что данная книга вас заинтересует и принесет вам ощутимую пользу при путешествии в увлекательный мир биоинформатики.

A. А. Миронов,
B. К. Швядас

ОГЛАВЛЕНИЕ
Предисловие редакторов русского издания 5
Предисловие 8
1.Введение 15
Сценарий 17
Жизнь в пространстве и времени 18
Догмы: основные и второстепенные 19
Архивы данных и доступ к ним 22
Курирование, аннотация и контроль качества 25
Всемирная Паутина (The World Wide Web) 26
Что такое URL?
28
Электронные публикации 29
Компьютеры и компьютерные науки 29
Программирование 31
Биологическая классификация и номенклатура 34
Использование последовательностей для определения филогенетических взаимосвязей 37
Использование SINE и LINE для установления филогенетического родства 45
Поиск схожих последовательностей в базах данных: PSI-BLAST 48
Структуры белков. Введение 56
Иерархия в белковой архитектуре 57
Классификация белковых структур 59
Предсказание структур белков и белковая инженерия 61
Критическая оценка предсказания структуры (CASP) 68
Белковая инженерия 68
Медицинские аспекты 68
Будущее 71
Упражнения, задачи и компьютерные задания 73
2. Организация генома и эволюция 81
Геномика и протеомика 81
Гены82
Белки 85
Протеомы 86
Отслеживание передачи генетической информации 89
Соответствие между картами 91
Генетические карты высокого разрешения 94
Локализация генов в геноме 97
Геномы прокариот 98 98
Геном бактерии Escherichia coli 98
Геном архея Methanococcus jannaschii 102
Геномы эукариот 104 104
Геном Saccharomyces cerevisiae (пекарские дрожжи) 108
Геном Caenorhabditis elegans 110
Геном Drosophila melanogaster 112
Геном Arabidopsis thaliana 112
Геном Homo sapiens (геном человека) 114
Белок-кодирующие гены 114
Почетные иностранные члены Научного совета по аналитической химии 125
Повторяющиеся последовательности 116
РНК 117
Однонуклеотидные полиморфизмы (SNP, СНП) 118
Генетическое разнообразие в антропологии 120
Генетическое разнообразие и идентификация личности 121
Генетический анализ одомашнивания крупного рогатого скота 122
Эволюция геномов 123
Пожалуйста, передайте гены: горизонтальный перенос генов 127
Сравнительная геномика эукариот 128
Упражнения, задачи и компьютерные задания 131
3. Архивы и извлечение информации 135
Введение 136
Оглавление базы данных и терминология поисковых систем 136 136
Какие еще вопросы могут возникать 137
Анализ полученных данных 138
Архивы 138 138
Базы данных последовательностей нуклеиновых кислот 139
Ген ингибитора бычьего панкреатического трипсина (последовательность ДНК из базы данных EMBL) 140
Геномные базы данных 141
Базы данных белковых последовательностей 142
Базы данных, близкие SWISS-PROT 144
PIR и связанные с ним базы данных 144
Базы данных структур 146
Индикаторы качества структуры 152
Ядерный магнитный резонанс (ЯМР) 153
Классификации белковых структур 153
Специализированные, или локальные, базы данных 154
Базы данных по экспрессии и протеомике 155
Банки данных метаболических путей 158
Библиографические базы данных 159
Обзоры баз данных и серверов по молекулярной биологии 159
Вход в архивы 160
Доступ к базам данных в молекулярной биологии 161
Как приобрести навык работы в молекулярной биологии через Интернет? 161
ENTREZ 161
Поиск по базе данных белков ENTREZ 162
Поиск в банке данных нуклеотидных последовательностей ENTREZ 162
Поиск в банке данных геномов ENTREZ 166
Поиск в банке данных структур ENTREZ 168
Поиск по библиографической базе данных PubMed 1 274
Интерактивный каталог "Менделевская (по Менделю) наследственность человека" (OMIM) 169
Система поиска последовательностей (Sequence Retrieval System, SRS) 170
Ресурс идентификации протеинов (Protein Identification Resource, PIR) 173
ExPASy - экспертная система анализа белков 177
Ресурс Ensembl 178
Куда мы отправимся дальше? 179
Упражнения, задачи и компьютерные задания 181
4. Выравнивания и филогенетические деревья 184
Выравнивание последовательностей. Введение 184
Точечная матрица сходства 185
Точечные матрицы и выравнивание последовательностей 192
Мера сходства последовательностей 198
Схемы оценки 199
Получение матриц замен 200
Матрицы BLOSUM 201
Взвешивание вставок/делеций 201
Расчет выравнивания для двух последовательностей 203
Вариации и обобщения 204
Приближенные методы для быстрого поиска в базах данных 204
Алгоритм динамического программирования для построения оптимального парного выравнивания последовательностей 205
Значимость выравниваний 211
Множественное выравнивание последовательностей 215
Связь множественных выравниваний последовательностей и структур 216
Программы для поиска множественного выравнивания последовательностей по базам данных 218
Профили 219
PSI-BLAST 221
Скрытые марковские модели (НММ) 224
Филогения 226
Филогенетические деревья 231
Методы кластеризации 232
Кладистические методы 235
Проблема переменной скорости эволюции 236
Вычислительный анализ 237
Упражнения, задачи и компьютерные задания 238
5.Структура белков и разработка лекарств 247
Введение 247
Стабильность и сворачивание (фолдинг) белков 249 249
Графические представления по Сасисекхаран-Рамакришнан-Рамачандран для описания разрешенных конформаций основной цепи 249
Боковые остатки 252
Стабильность и денатурация белков 253
Сворачивание (фолдинг) белков 256
Применения гидрофобности 258
Совмещение структур и структурные выравнивания 263 263
Выравнивание матриц расстояний с помощью программы DALI 266 266
Эволюция белковых структур 267
Классификация структур белков 270
База данных SCOP 270
Предсказание и моделирование белковых структур 271 271
Критическая оценка предсказаний структуры (CASP) 274 274
Предсказание вторичной структуры 275
Нейронные сети 276
Моделирование по гомологии 280
Распознавание фолда 283
ЗБ-профили 283
Использование ЗО-профилей для определения качества структур
Трединг 285
Распознавание фолда в CASP 2000 286
Вычисление конформационной энергии и молекулярная динамика 287 287
Программа ROSETTA 290
Программа LINUS 292
Определение белковых структур в геномах 293
Предсказание функции белка 296
Дивергенция функций: ортологи и паралоги 297
Открытие и разработка лекарств 299
Лидерное соединение (Лид) 300
Уточнение лида:количественное соотношение структура - активность (QSAR) 302
Компьютерный дизайн лекарств 304
Упражнения, задачи и компьютерные задания 309
Заключение 314

Сервер создается при поддержке Российского фонда фундаментальных исследований
Не разрешается  копирование материалов и размещение на других Web-сайтах
Вебдизайн: Copyright (C) И. Миняйлова и В. Миняйлов
Copyright (C) Химический факультет МГУ
Написать письмо редактору