Стати інженером машинного навчання | Крок 4: Практика, практика, практика

Найкращий спосіб швидкого набору необхідних навичок машинного навчання - це практикувати побудову своїх навичок за допомогою невеликих наборів легких для розуміння даних. Ця методика допомагає вам будувати свої процеси, використовуючи цікаві дані в реальному світі, які є досить маленькими, щоб ви могли подивитися на excel або WEKA. У цій статті ви дізнаєтесь про якісну базу даних з великою кількістю наборів даних та кілька порад, які допоможуть вам зосередити свій час на тому, що для вас важливо!

Навіщо практикувати з наборами даних?

Дотримуючись онлайн-навчальних посібників, ви опинитеся в пастці у залежному режимі мислення, який обмежить ваш ріст, оскільки ви не вчитеся ЯК вирішити будь-яку проблему. Ваше навчання, як застосувати конкретне рішення до певного типу проблеми. Це еквівалент перевитрати, що, як ми всі знаємо, призводить до низької продуктивності в реальному світі. Якщо ви зацікавлені в тому, щоб стати інженером машинного навчання, вам потрібно переконатися, що ви можете узагальнити реальні дані. Щодня кидайте виклик собі і атакуйте проблеми, використовуючи визначений процес. Відпрацювання своїх навичок за допомогою наборів даних - це найкращий спосіб зробити це.

Де я можу отримати набори даних?

На щастя для всіх, є фантастичний сховище проблем машинного навчання, до якого ви можете безкоштовно отримати доступ.

Сховище машинного навчання UCI

Центр машинного навчання та інтелектуальних систем при Каліфорнійському університеті в Ірвіні побудував сховище машинного навчання UCI. Протягом 30 років тут можна було шукати дослідників машинного навчання та студентів машинного навчання, яким потрібні набори даних. Ви можете завантажити всі наявні набори даних на їх веб-сторінці. Вони також перелічують усі відомості про нього, включаючи будь-які публікації, які його використовували, що дуже корисно, коли ви хочете дізнатися, що дослідники атакували проблему. Набори даних також можна завантажувати декількома різними способами (CSV / TXT).

У наборів даних UCI є лише два мінуси.

  1. Інший недолік полягає в тому, що вони маленькі, щоб ви не мали багато досвіду в масштабних проектах, але це не має значення, адже ви, хлопці, у цьому новачки! Почніть з малого!
  2. Найбільш вагомим недоліком є ​​те, що ці набори даних очищаються та попередньо обробляються. Прибирання та попередня обробка - важливі складові процесу машинного навчання, з якими ви зіткнетесь у своїй кар’єрі. Не витрачаючи часу на практику цієї навички, ви зашкодите вам пізніше в дорозі.

Тренуватися цілеспрямовано

Як ви працюєте з цілеспрямованою практикою, коли існує так багато наборів даних? Прагнутий інженер машинного навчання найкраще розібратиметься, які є їх цілі, і вибрати набір даних, який найкращим чином досягне їх досягнення. Я розробив декілька питань, які ви можете задати самому собі, щоб зменшити кількість наборів даних.

  • Яку проблему ви хочете вирішити?
  • Регресія, класифікація, регресія, кластеризація?
  • Який розмір даних? Десятки точок даних або мільйони
  • Скільки функцій має набір даних?
  • Який тип особливостей?
  • З якого домену цей набір даних?

З’ясуйте, який тип наборів даних ви хочете зосередити, щоб відповідати вашим більш широким цілям. Після цього у вас буде можливість фільтрувати через величезну кількість наборів даних, доступних на платформі.

Приклад проблем

Не хвилюйтесь, якщо ви не впевнені, що саме намагаєтесь навчитися. Набагато краще не зациклюватися, намагаючись знайти ідеальний план навчання. Я склав список наборів даних, які можуть вам бути цікавими. Тут є кілька типів проблем, так що дайте їм усе полегшити.

Регресія: http://archive.ics.uci.edu/ml/datasets/Wine+Quality

Кластеризація: https://archive.ics.uci.edu/ml/datasets/Bag+of+Words

Класифікація: http://archive.ics.uci.edu/ml/datasets/Wine

Класифікація здоров'я: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29

Але ..

Я не думаю, що я маю для цього навички або відчуваю, що щось перешкоджає мені починати роботу!
Час від часу сумніватися у вашій власній власності, але ви не можете дозволити цьому зупинити вас від своїх цілей стати інженером машинного навчання. Час налагодити своє мислення.

Я не знаю, як програмувати!
Це добре, тому що моя стаття «Стати інженером машинного навчання» Крок 3. Вибір інструменту переходить на один інструмент, який не потребує будь-яких навичок програмування для використання, який дозволяє реалізувати багато алгоритмів машинного навчання.

З чого я б навіть почав, коли справа стосується вирішення проблем?
Процес, який дозволяє розглянути будь-яку проблему, є надзвичайно важливим, і я вважаю, що вивчити цей процес краще, ніж дізнатися про те, як працює функція зворотного поширення. Перегляньте мою статтю, де я детально розглядаю питання про вибір посилання для вибору процесу

Я не думаю, що я міг би це зробити самостійно?
Навчання машинного навчання самостійно - не найкращий спосіб навчання. Приєднання до групи однодумців зробить чудеса у вашій здатності вчитися. Перегляньте цю статтю, щоб дізнатися більше.

Забирай геть

Якщо ви серйозно ставитесь до самостійного вивчення, подумайте про створення скромного списку наборів даних, які ви хочете вивчити далі. Дотримуйтесь цільового плану практики, щоб створити цінний фундамент для занурення у складніші та захоплюючі проблеми машинного навчання.

Дякуємо за прочитане :) Якщо вам сподобалось, натисніть на цю кнопку внизу та йдіть за мною! Це значить для мене багато чого і спонукало б писати більше подібних історій

Давайте також підключимось у Twitter, LinkedIn чи електронному листі