В настоящее время методы машинного обучения все шире используются для решения задач биоинформатики и системной биологии. Умение грамотно обрабатывать данные и извлекать закономерности, строить прогнозы становится критически важным для решения сложных научных и практических задач. Основная цель данного курса – дать студентам подготовку, необходимую для успешного освоения современных методов анализа данных. В рамках курса студенты познакомятся с основами интеллектуального анализа данных, включая преобразование и очистку данных, работу с пропущенными значениями, основными способами визуализации данных (гистограммами, диаграммами плотности, диаграммами рассеяния, ящиками с усами и т.п.), корреляционным анализом, с различными методами отбора признаков, с задачами снижения размерности, кластеризации, классификации, регрессии и с наиболее известными и широко используемыми методами их решения. Студенты познакомятся со специализированными библиотеками для визуализации и анализа данных и научатся применять полученные знания для решения практических задач, в том числе, загружать данные, сохраненные в разных форматах, выбирать и группировать нужные записи по заданным критериям, строить предсказательные модели и оценивать их качество.
16 лекций и 12 семинаров