П'ять найкращих рамок для науковців даних

Існує багато інструментів, які можуть допомогти вам, коли ви починаєте свою кар'єру в галузі даних. Деякі з цих інструментів ви будете використовувати їх майже у кожному новому проекті. У цій публікації ми представляємо вам п’ять інструментів та технологій, які можуть допомогти вам зануритися у світ наукових даних і будуть корисні для машинного навчання чи великих проблем з даними.

Scikit-Learn

Scikit-learn - це дуже популярна і дуже добре задокументована бібліотека алгоритмів машинного навчання з відкритим кодом з метою надання набору спільних алгоритмів користувачам Python через послідовний інтерфейс. Це швидко перетворюється на механізм машинного навчання, оскільки він постійно розвивається за допомогою нових моделей, підвищення ефективності швидкості та пам’яті та великих можливостей передачі даних. Хоча scikit-learn зазвичай використовується для менших даних, він пропонує пристойний набір алгоритмів для класифікації, регресії, кластеризації та декомпозиції.

Станом на жовтень 2018 року очікувана середня зарплата становить майже 140 000 доларів щорічно, а основні назви, такі як Amazon, IBM, серед інших активно шукають спеціалістів, які спеціалізуються на цьому.

Панди

Pandas - це пакет Python, призначений для роботи з "міченими" та "реляційними" даними просто та інтуїтивно. Pandas - це ідеальний інструмент для керування даними, призначений для швидкого та легкого маніпулювання, агрегації та візуалізації даних. Найпростіший спосіб подумати про Pandas - просто розглянути його як версію Python для Microsoft Excel.

Pandas перевершує практичний аналіз даних у фінансах, статистиці, соціальних науках та техніці. Pandas добре працює з неповними, брудними та немеченими даними (тобто типом даних, з яким ви, мабуть, зіткнетесь у реальному світі) та надає інструменти для формування, об'єднання, перестановки та нарізки наборів даних. Багато аналітиків та спеціалістів Python шукають людей, які добре розбираються в Пандах.

TensorFlow

Розроблений Google лише кілька років тому, TensorFlow - це бібліотека програмного забезпечення з відкритим кодом для чисельних обчислень з використанням графіків потоку даних. Вузли на графіку представляють математичні операції, в той час як краї графіки представляють багатовимірні масиви даних (тензори), що передаються між ними.

TensorFlow, мабуть, є однією з найкращих рамок глибокого навчання, і його прийняли декілька гігантів, таких як Airbus, Twitter, IBM та інші, в основному завдяки своїй гнучкої та модульній архітектурі системи. Звичайно, враховуючи, що він розроблений в Google, інженери постійно його оновлюють та додають більше функцій. Не очікуйте, що TensorFlow скоро втратить пар.

Апач Кафка

Apache Kafka - це платформа потокової передачі з відкритим кодом, яка може в режимі реального часу обробляти трильйони подій на день. Спочатку задумана як черга повідомлень, Kafka базується на абстрагуванні розподіленого журналу фіксування. З часу створення та відкриття, отриманого LinkedIn у 2011 році, Kafka швидко перетворилася з черги на обмін повідомленнями до повноцінної потокової платформи.

Kafka є владою багатьох брендів імен, включаючи Netflix, Airbnb, LinkedIn та інші. Це популярний фреймворк, оскільки дає можливість надавати та отримувати доступ до величезних обсягів даних з різних внутрішніх платформ. Подумайте про це як основу обміну даними, що обслуговує різні платформи та процеси, що використовують різні типи даних.

Зошити Юпітера

Зошит Юпітера - це неймовірно потужний інструмент для інтерактивного розробки та представлення проектів з наукових даних. Зошит інтегрує код та його вихід у єдиний документ, який поєднує візуалізації, текст розповіді, математичні рівняння та інші мультимедійні засоби. Інтуїтивний робочий процес сприяє ітеративному та швидкому розвитку, роблячи ноутбуки все більш популярним вибором в основі сучасної науки про дані, аналізу та загалом все більшої науки.

Проект Юпітер виграє від великої спільноти учасників, партнерських відносин з багатьма компаніями (Rackspace, Microsoft, Continuum Analytics, Google, Github) та університетами (UC Berkeley, Університет Джорджа Вашингтона, Нью-Йорк). Ці великі імена допомагають гарантувати, що Юпітер постійно зростаючий.

Бонус: SQL

Нам буде відмовлено хоча б згадати найпоширенішу мову баз даних у світі. SQL - це стандартна мова для систем управління реляційними базами даних. Операції SQL використовуються для виконання таких завдань, як оновлення даних у базі даних або отримання даних із бази даних.

Станом на жовтень 2018 року існує понад 100 000 робочих місць, які шукають людей, які знають SQL. Це варіюється від розробників SQL до маркетингових фахівців - аналітика важлива, незалежно від галузі та ролі. Оскільки компанії щодня все частіше шукають науковців даних, це число лише зростатиме експоненціально.

Висновок

Ваш час - обмежений ресурс, у цій публікації ми згадуємо шість корисних інструментів та технологій, які, сподіваємось, вам будуть корисні. Scikit-learn і панди - це чудові бібліотеки пітона, щоб перевірити машинне навчання. Рамка TensorFlow познайомить вас із графічними обчисленнями та дозволить вам вивчати та реалізовувати нейронні мережі за допомогою цієї бібліотеки. Apache Kafka буде корисний при проблемах з інженерією даних. Ноутбуки Юпітера дозволять перевірити та взаємодіяти з кодом під час розробки моделей машинного навчання. А вивчення SQL-коду - це прекрасний спосіб інтегрувати та запитувати структуровані дані, які ви використовуєте.

- - - - - - - - - - - - - - - - -

Читайте більше статей з наукових даних на OpenDataScience.com, включаючи підручники та посібники від початкових до просунутих рівнів! Підпишіться на нашу щотижневу розсилку тут і отримуйте останні новини кожного четверга.