Сегодняшний мир производит огромное количество данных: результаты физических экспериментов, лайки в социальных сетях, адреса пакетов, пересылаемых по сети. Данных так много, что их невозможно где-то сохранить и обработать однажды в будущем. Тем не менее, данные могут содержать важную информацию, и эту информацию нужно извлекать.
Этот курс будет посвящен алгоритмам для обработки потоковых данных, данных, каждый элемент которых можно увидеть только один раз. Память является основным ограничением для потоковых алгоритмов, и, как правило, её значительно меньше, чем самих данных. Мы изучим основные математические инструменты и способы компактных представлений данных. Мы рассмотрим классические задачи, такие как выбор медианы, подсчет числа различных элементов, поиск частых элементов и статистик по запросу. Конец курса будет посвящен вариации потоковых алгоритмов для графов.
Источники.
Mining of Massive Datasets, Ulman. Очень доходчивая и интересная книжка, есть глава про streaming.
Data Streams: Algorithms and Applications
, Muthukrishnan. Статья, переросшая в книгу. Хороший обзор.
http://research.neustar.biz/ -- блог компании Neustar. Есть много интересных и подробных статей про streaming.
http://www.cs.dartmouth.edu/~ac/Teach/CS49-Fall11/ -- курс Амита Чакрабарти в Дартмуте.
http://grigory.us/big-data-class.html -- курс Григория Ярославцева по Big Data.
Date and time | Class|Name | Venue|short | Materials |
---|---|---|---|
24 February 15:20–16:50 |
Введение (ауд. 510), Lecture | 2-й учебный корпус К(П)ФУ | files |
24 February 17:00–18:30 |
Число различных элементов (ауд. 510), Lecture | 2-й учебный корпус К(П)ФУ | files |
25 February 15:20–16:50 |
Оценка частотных моментов (ауд. 411), Lecture | 2-й учебный корпус К(П)ФУ | files |
25 February 17:00–18:30 |
Count-Min скетч и l_0-сэмплирование (ауд. 216), Lecture | 2-й учебный корпус К(П)ФУ | files |
26 February 15:20–16:50 |
Разреженное l_1 приближение и полупотоковые алгоритмы на графах (ауд. 1211), Lecture | 2-й учебный корпус К(П)ФУ | files |
26 February 17:00–18:30 |
Полупотоковые алгоритмы на графах и нижние оценки (ауд. 1008), Lecture | 2-й учебный корпус К(П)ФУ | files |