Интервью с создателем Apache Spark

Матей Захария

Apache Spark — это быстрый движок для обработки Big Data и одна из самых успешных технологий. Его создал блестящий молодой ученый Матей Захария (Matei Zaharia) в 2009 году. На сегодняшний день Apache Spark — это активный проект с сотнями участников.

Матей Захария родился в Румынии. C семьей переехал в Канаду, где окончил Университет Уотерлу с медалью за высокую успеваемость. Получил множество наград на конкурсах по программированию, среди них золотая медаль на Международной студенческой олимпиаде по программированию в 2005 году.

Он начал проект Spark, во время обучения в аспирантуре Калифорнийского университета в Беркли. В 2013 году Матей получил ученную степень. В настоящее время ассистент профессора в Массачусетском технологическом институте, также является техническим директором Databricks и вице-президентом Spark в Apache.

— Как началась работа над Apache Spark и какие ключевые решения позволили ему стать одним из ведущих технологических трендов в области Big Data и крупнейшим проектом Apache?
— Я начал работать над системами больших данных с Hadoop в 2007 году. Работу над Spark я начал в 2009 году. Мне потребовалось решение для машинного обучения. В нашей лаборатории в Калифорнийском университете в Беркли исследователи в области машинного обучения пытались использовать MapReduce для своих алгоритмов, но он был неэффективен.

После старта проекта, мы быстро поняли, что Spark может быть полезен и вне машинного обучения. Мы сосредоточились на разработке общего вычислительного движка с большими библиотеками для построения линий передач данных.Я думаю, несколько решений, помогли проекту достигнуть его сегодняшнего уровня.

Во-первых, с первых дней мы работали над созданием большого сообщества, включая наставничество внешних участников, принимали патчи от них, публиковали бесплатные учебные материалы и т.д. Это привело в проект много новых участников как из университета, так и за его пределами.

Во-вторых Spark дал преимущества в нескольких измерениях (скорость и простота использования), которые были несравнимыми альтернативными решениями.

В-третьих, нам удалось масштабировать процесс разработки и обеспечить быстрое развитие проекта, поэтому мы продолжаем наблюдать над добавлением захватывающих идей в Spark. Из недавних: DataFrames, конвейер машинного обучения, поддержка R, а также огромный ассортимент новых алгоритмов, которые мы параллельно реализуем в MLlib (масштабируемая библиотека машинного обучения Apache Spark).

— О каких ключевых вещах Apache Spark нужно знать ?
— Вот некоторые менее известные:
Spark известен за вычисления в оперативной памяти вычислительной техники, движок также очень быстр на диске, за последние время проделана довольно большая работа для оптимизации этого. В Databricks мы использовали Spark для побития мирового рекорда по сортировки данных на диске в 2014 году, используя в 10 раз меньше ресурсов, чем MapReduce.

Многие интересуются, Spark — это замена Hadoop. Если вкратце, то нет: Spark — это лишь вычислительный движок, в то время как Hadoop — это полный стек хранения, управление кластером и вычислительными инструментами. Spark может хорошо работать на Hadoop.

Тем не менее, мы видим много развертываний, которые происходят не на Hadoop. Это развертывание в хранилищах NoSQL (например, Cassandra) и развертывание непосредственно в облачных хранилищах (например, Amazon S3, Databricks Cloud). В этом смысле Spark достигает более широкой аудитории, чем пользователи Hadoop.

Большая часть разработческой активности в Apache Spark происходит во встроенных библиотеках: Spark SQL, Spark Streaming, MLlib и Graphx. Наиболее популярные из них — это Spark Streaming и Spark SQL: около 50-60% пользователей используют каждую из них соответственно.

— Вы работаете над несколькими интересными проектами на переднем крае Big Data и облачных вычислений. Ваше видение, какими будут технологии Big Data и Cloud в 2020 году?
— Для меня самый волнующий вопрос — это приложения, особенно за пределами традиционной обработки данных. Мы уже видим ряд интересных научных приложений, созданных на системах больших данных подобных Spark. Приложения в области геномики, нейробиологии и обработки изображений.

Некоторые из них могут дать толчок новым промышленным приложениям, где этот тип обработки данных мог бы проводиться на регулярной основе. Для обработки данных, поступаемых от промышленных машин или датчиков, для анализа медицинских сканов или данные секвенирования и т.д. Я думаю, что к 2020 году мы увидим ряд таких приложений в общем пользовании.

Я также думаю, что облако сыграет большую роль, поэтому Databricks стартовал с облачного продукта. Облако — это недорогой способ хранения и управления данными, который позволяет организациям сосредоточиться только на нужной им обработке, а не на операциях.

Облако — это место «рождения» многих данных. Благодаря ему очень легко развернуть и запустить новые приложения на том же месте, где хранятся данные. Это важно для обработки данных. Я думаю, что к 2020 году большая часть данных будет или в публичных облаках или в частных облачных средах.

— Вы технический директор и сооснователь компании Databricks, цель которой — помочь клиентам обрабатывать Big Data с использованием Spark. Что может Databricks, и чего не может Apache Spark?
— Databricks предлагает облачный сервис, который позволяет легко развертывать приложения Spark и работать с данными совместно в команде. Код, который вы пишете — это Apache Spark код, и, следовательно, он может работать на любом кластере Spark. Тем не менее мы предоставляем инструменты для легкого запуска этого кода (например, планирование производственной работы), а также пользовательский интерфейс для быстрого просмотра данных (Среда подобная Google-Docs, publishable панели управления и т.д.).

— Над какими другими интересными проектами вы работаете?
— В Databricks Cloud мы создаем новые интересные компоненты, которые планируем анонсировать в ближайшее время. Один из проектов над которым я тесно работаю — Jobs, наш компонент для развертывания и мониторинга приложений Spark. Еще одна область, в которую я вовлечен — Project Tungste. Это попытка дать Spark современные аппаратные достижения (например, твердотелую память, векторизованные инструкции процессоров, может быть, даже GPU).

— Что вы любите делать помимо компьютера и Big Data? Из недавно прочитанных книг, какая вам понравилась?
— В наше время невозможно находится вдалеке от больших данных. Когда я вне этого, люблю читать книги, гулять по городу, иногда пробую что-то приготовить. Мне очень понравилась книга «Марсианин» Энди Вейра.

Источник: kdnuggets.com, 10 мая 2015


Перевод выполнен abv24.com




Опубликовано 07.03.2016 в 10:47 пп · Автор abv24 · Ссылка
Рубрики: Социальные медиа · Теги: , , , ,

Написать комментарий


@Mail.ru