ALMADA-2013. Самая интересная российская школа по Computer Science в этом году

Приятных вам данных, любители анализировать громадье логов и прогнозировать будущее социальных графов, с вами этим вечером Алексей Зиновьев [Alexey Zinoviev], человек посетивший школу ALMADA, организованную при поддержке компании Яндекс и спецподразделения Microsoft Research.

Статья впервые была опубликована мною в блоге компании Тамтэк.
После этого я выступил с рассказом на ИТ-субботнике (видео и слайды)

Сегодня я решил поделиться с вами историей своей поездки на самую интересную школу по Computer Science в России этого года.




Наверное, стоит представиться, дабы было понятно, чем вызвана моя поездка: меня зовут Алексей Зиновьев, и я более полутора лет увлеченно работаю в направлении BigData в компании Тамтэк. Однако, задолго до этого я начал заниматься теорией графов, прогнозированием пробок, исследованием транспортных систем.

Когда я увидел в январе этого года объявление о школе ALMADA (Algorithms for Massive Datasets School) с программой, сконцентрированной вокруг алгоритмов на больших графах, а также структур данных, подходов к моделированию и идеологических докладов, в которых торжествует победа рационального над хаосом и обсуждается высочайшая энтропия, свойственная данным, порождаемым человеком в больших масштабах, мне стало ясно, что не поехать нельзя.

Часть первая, мотивационная


Меня часто спрашивают, мол, зачем ездить в Computer Science школы?

Лично я нахожу множество причин для себя и своих коллег: после окончания матфака прошло несколько бесплодных ненаучных лет, а в вас играет ретивое; вам необходимы связи с лучшими учеными практиками; вы хотите быть на острие мировой науки и практики; нужно прокачать английский максимально быстро; делать домашку ночами и на выходных.

Но как туда попасть? Поначалу казалось, что простому смертному туда и не стоит соваться, так как довольно жесткими были условия подачи заявок: близкая дата окончания возможной подачи заявки; научное резюме Curriculum vitae (CV) на английском языке, мотивационное письмо, сканы статей и научных трудов, рекомендательные письма от компании (в которой работаешь) и научного руководителя.
Все это я собрал и отправил в последний день, 14 марта (мой день рождения), дописав CV под сочувствующие взгляды домочадцев.

Я уже потерял всякую надежду, когда в день открытия Google I/O, находясь на другой стороне земного шара, получил подтверждение своей заявки, да не простое, а золотое: с оплатой питания и предоставлением проживания в общежитии МГУ (да-да! в том самом сталинском доме со шпилем на Воробьевых горах). В этот момент автор сильно затосковал по Родине, но это совсем другая история.

Отдельное спасибо хочется сказать моей любимой компании Тамтэк, без которой бы эта поездка не состоялась!

Часть вторая, неформальная


Школа началась с замечательно before-party, на котором было много закусок, элитного алкоголя и возможность познакомиться с будущими однокашниками и лекторами в неформальной обстановке. Уже в кулуарах была поднята тема, связанная с “нашим товарищем” Сноуденом и потенциальными возможностями конторы АНБ.






Многих волновал ответ на вопрос: а действительно ли АНБ может мониторить 500 млн звонков в Германии; вести статистику по каждому человеку и какими алгоритмами они, простите, пользуются?

Кто - то в кулуарах вообще начал сравнивать положение участников конференции с положением ученых-атомщиков конца 30-ых годов XX века, многие из которых понимали, что дело их жизни немного evil, но должны были делать атомную бомбу, чтобы их не опередили коллеги. Однако, все ученые дружно сошлись на том, что за нашу сегодняшнюю работу надо похвалить Его Величество Человека, генерирующего одним своим фактом существования тонны персональной информации, с которой нам и нужно разобраться.

Часть третья, большеданная




В прошлые времена большие данные не то чтобы отсутствовали, но имели отношения к узким областям человеческой деятельности.
Типичные BigData прошлого:
  • Астрономический вычисления
  • Данные многолетних наблюдений за погодой
  • Данные торговых операций
  • Морские маршруты
К примеру, прогнозирование движения светил по небосклону в работах Кеплера, Браге, Галилея опиралось на значительное количество наблюдений других ученых астрономов, которые были доступны в разных форматах, на разных языках и содержали ошибки переписчика. Все это надо было обработать, исключить ошибки и некорректные данные, а затем сгруппировать пригодным для тогдашних астрономических моделей способом.

В современном мире можно выделить следующие объекты и области, имеющие отношение к BigData:

  • Web-граф (модель Интернета)
  • Граф почтовых сообщений
  • Данные с Большого Адронного Коллайдера (траектории движения частиц, например)
  • Астрономия (данные о движении астероидов и комет)
  • Генетический код
  • Граф друзей на Facebook



Но откуда берутся эти данные, как они структурированы? Давайте продолжим погружение в “гидродинамику” данной предметной области.

Сначала данные должны откуда - то появится.
Типы потоков больших данных могут быть различными, в зависимости от источников генерации данных и их “стоков”:
  • Upstream - мы отсылаем свои геоданные куда - то;
  • Downstream - мы скачиваем фильмы и слушаем музыку;
  • Продукты социального взаимодействия - сообщения, лайки.
Затем происходит консолидация (например, персонализация по user_id), причем схема консолидации может зависеть от задачи, которую необходимо решать. После этого зачастую происходит агрегация с частичной или полной потерей персонализации и получением неких статистических данных.

Часть четвертая, этическая


Этической стороне дела было посвящено немало споров и даже одна лекция. Дело в том, что возможность хранить и обрабатывать информацию обо всем, связанным с деятельностью человека, диктует новый цивилизационный и технологический уклад для общества, причем обществу придется жить с этим укладом внезапно для самого себя и без возможности особо противодействовать.

Давайте рассмотрим плюсы и минусы нового этического порядка, взглянув на него с точек зрения государства, бизнеса и простого человека.



Безусловно, для разумного правительства и сбалансированного общества выгоды несомненны: это и возможность осуществления прямой демократии, и потенциальная способность принятия оптимальных экономических и политических решений в интересах общества, а также снижение экономических издержек и возможность возвращения централизованного планирования.

 

Значительны и выгоды IT-бизнеса, становящегося центральным игроком в наступающем порядке вещей. Бизнес получает полноценную возможность конвертировать свои продукты в сервисы, осваивать новые рынки, меняя мир по ходу дела, под благовидным предлогом, а также доступ к государственным ресурсам и заказам.





Впрочем, призрак Большого Брата здесь не просто маячит на заднем фоне в качестве рядового статиста, но и выходит на авансцену, становясь основным узнаваемым символом больших данных для простых людей. Обычные люди, получая доступ к новым благам, расплачиваются своими персональными данными, теряя возможность вести частную, скрытую от чужих глаз, жизнь.

Мир будущего - это мир, в котором возможность быстро решать проблемы анализа больших данных станет ключевой возможностью быть лидером в любой из областей. Мне видятся следующие приметы грядущего времени: автоматическое правосудие; полная публичность частной жизни; защита данных и частичная анонимность только за большие деньги; войны патентов и строгие законы по защите прав и инноваций; введение платы персональными данными за значительное количество услуг.

Не стоит страшиться будущего, но необходимо понимать все риски и устанавливать границы дозволенного при помощи нового общественного договора.

Часть пятая, итоговая


Каждая подобная школа добавляет в копилку опыта новые тяжеловесные медяки, приносит новые знакомства с  крупнейшими специалистами в области BigData и доставляет нас с их помощью на передовую Big Computer Science War. Легкая форма подачи сложного материала, открытость, практическая применимость всего услышанного отличает эту область знания от многих других областей науки. С собой я привез ощущение научности и значимости моей повседневной работы в компании Тамтэк и, я надеюсь, передал это ощущение коллегам по цеху на внутренних семинарах по пятницам и на последнем IT-субботнике.

Всего хорошего, пытливый читатель, в следующих статьях я попробую поподробнее разобрать некоторые конкретные алгоритмы и структуры данных, полезные в нашей повседневной деятельности.

Комментарии

Популярные сообщения из этого блога

Cassandra, мой первый кластер и первая NoSQL

10 причин раздражаться при использовании Apache Spark

Big Data on your local machine : Installing Hadoop Cluster (Multi Node regime)

MyBatis и Hibernate на одном проекте. Как подружить?

Virtual Box - много маленьких машинок внутри одной.