Безкоштовні відкриті набори даних для машинного навчання та наукових даних | Назустріч AI

Кращі публічні набори даних для машинного навчання та наукових даних

Які найкращі набори даних для машинного навчання? Після скребкування веб-годин по годинах ми створили чудовий чіт-лист для високоякісних та різноманітних наборів даних машинного навчання.

АВТОРИ:

Стейсі Стенфорд, Мемуарне навчання Мемуари Inc.

Роберто Іріондо, відділ машинного навчання, університет Карнегі Меллон.

Опубліковано:

2 жовтня 2018 року

ОСТАННЄ ОНОВЛЕННЯ:

15 травня 2019 року

Деякі речі, які слід пам’ятати, шукаючи високоякісні набори даних:

1.- Якісний набір даних не повинен бути безладним, оскільки ви не хочете витрачати багато часу на чистку даних.

2. - Набір даних високої якості не повинен мати занадто багато рядків або стовпців, тому з ним легко працювати.

3. Чим чистіше дані, тим краще - чистка великого набору даних може бути неймовірно трудомісткою.

4.- Ваша кінцева мета повинна відповісти на запитання / рішення, на яке в свою чергу можна відповісти даними.

Шукачі наборів даних

Пошук набору даних Google: Подібно до того, як працює Google Scholar, пошук набору даних дозволяє вам знаходити набори даних, де б вони не розміщувалися, незалежно від того, чи це веб-сайт видавця, цифрова бібліотека чи особиста веб-сторінка автора.

Kaggle: веб-сайт із науковими даними, який містить різноманітні зовнішні внески в цікаві набори даних. Ви можете знайти всі види наборів даних про ніші в його головному списку, від рейтингів ременів до даних баскетболу до і навіть ліцензій для домашніх тварин у Сіетлі.

Репозиторій машинного навчання UCI: одне з найдавніших джерел наборів даних в Інтернеті і прекрасна перша зупинка при пошуку цікавих наборів даних. Хоча набори даних сприяють користувачеві і, отже, мають різний рівень чистоти, переважна більшість є чистою. Ви можете завантажити дані безпосередньо з сховища машинного навчання UCI, без реєстрації.

VisualData: Відкрийте набори даних комп'ютерного зору за категоріями, це дозволяє здійснювати пошукові запити.

Знайти набори даних | Бібліотеки КМУ: Відкрийте для себе високоякісні набори даних завдяки колекції Huajin Wang, CMU.

Загальні набори даних

Набори даних про державне управління

Data.gov: Цей сайт дозволяє завантажувати дані з багатьох урядових установ США. Дані можуть варіюватися від бюджетів уряду до результатів роботи в школі. Але будьте попереджені: велика частина даних потребує додаткових досліджень.

Атлас харчових середовищ: Містить дані про те, як місцевий вибір їжі впливає на дієту в США.

Фінанси шкільної системи: опитування фінансів шкільних систем у США.

Дані про хронічні захворювання: дані про показники хронічних захворювань у районах США.

Національний центр статистики освіти США: Дані про освітні заклади та демографічні показники освіти з США та всього світу.

Служба даних Великобританії: найбільший збірник у Великобританії соціальних, економічних та населення.

Дані США: всебічна візуалізація публічних даних США.

Корпуси даних

Комплект даних Бостонського житла: Містить інформацію, зібрану Службою перепису США щодо житла в районі Бостонської Массі, отримана з архіву StatLib і широко використовується в літературі для порівняльних алгоритмів.

Географічні набори даних

Google-Орієнтири-v2: вдосконалений набір даних для розпізнавання та пошуку орієнтирів. Цей набір даних містить 5М + зображень 200k + орієнтирів у всьому світі, отриманих та позначених спільнотою Wiki Commons.

Фізичні та економічні набори даних

Куандль: хороше джерело економічних та фінансових даних - корисне для побудови моделей для прогнозування економічних показників або цін акцій.

Відкриті дані Світового банку: Набори даних, що охоплюють демографічні показники населення, величезну кількість економічних показників та показників розвитку з усього світу.

Дані МВФ: Міжнародний валютний фонд публікує дані про міжнародні фінанси, ставки боргу, валютні резерви, ціни на товари та інвестиції.

Дані про ринок Financial Times: актуальна інформація про фінансові ринки з усього світу, включаючи індекси цін на акції, товари та валюту.

Google Тенденції: вивчайте та аналізуйте дані про діяльність в Інтернеті та модні новини з усього світу.

Американська економічна асоціація (AEA): хороше джерело для пошуку макроекономічних даних США.

Набори машинного навчання:

Зображення наборів даних

xView: xView - один з найбільших загальнодоступних наборів даних накладних зображень. Він містить зображення зі складних сцен по всьому світу, анотовані за допомогою обмежувальних коробок.

Labelme: великий набір помічених зображень.

ImageNet: Набір даних фактичного зображення для нових алгоритмів, організованих відповідно до ієрархії WordNet, в якій сотні і тисячі зображень зображують кожен вузол ієрархії.

LSUN: розуміння сцени з багатьма допоміжними завданнями (оцінка планування кімнати, прогнозування схильності тощо)

MS COCO: Загальне розуміння зображення та підписи.

COIL100: 100 різних об'єктів, зображених під будь-яким кутом при 360 обертах.

Візуальний геном: Дуже детальна база візуальних знань із написанням ~ 100 К зображень.

Відкриті зображення Google: колекція з 9 мільйонів URL-адрес до зображень, "які були позначені мітками, що охоплюють понад 6 000 категорій" під Creative Commons.

Марковані обличчя в дикій природі: 13 000 зображень із зображеннями людських облич для використання в розробці програм, які передбачають розпізнавання обличчя.

Комплект даних собак Стенфорда: Містить 20 588 зображень та 120 різних категорій порід собак.

Розпізнавання сцени в приміщенні: Дуже специфічний набір даних і дуже корисний, оскільки більшість моделей розпізнавання сцен краще "зовні". Містить 67 категорій у приміщенні та 15620 зображень.

Набори даних аналізу почуттів

Набір даних аналізу настроїв мультидоменів: трохи старший набір даних, який містить огляди продуктів від Amazon.

Огляди IMDB: Старіший порівняно невеликий набір даних для класифікації бінарних настроїв містить 25 000 оглядів фільмів.

Stanford Sentiment Treebank: Стандартний набір даних про настрої з анотаціями про настрої.

Sentiment140: популярний набір даних, який використовує 160 000 твітів із попередньо видаленими смайликами.

Twitter Авіакомпанія США: дані Twitter про американські авіакомпанії з лютого 2015 року, класифіковані як позитивні, негативні та нейтральні твіти

Набір природних мов наборів даних

Набір даних HotspotQA: Набір даних з відповідями на запитання, що містить природні запитання з декількома скачками, з суворим наглядом за підтримкою фактів, щоб забезпечити більш зрозумілі системи відповідей на запитання.

Набір даних Enron: дані електронної пошти від вищого управління Enron, організовані в папки.

Відгуки Amazon: Містить близько 35 мільйонів відгуків від Amazon, що охоплюють 18 років. Дані включають інформацію про товар та користувача, рейтинги та огляд простого тексту.

Google Books Ngrams: збірка слів із книг Google.

Корпус Blogger: колекція 681 288 публікацій у блозі, зібрана з blogger.com. Кожен блог містить як мінімум 200 випадків поширених англійських слів.

Вікіпедія Дані про посилання: Повний текст Вікіпедії. Набір даних містить майже 1,9 мільярда слів з більш ніж 4 мільйонів статей. Ви можете шукати за словом, фразою або частиною самого абзацу.

Список електронних книг Гутенберга: Анотований список електронних книг від проекту Gutenberg.

Текстові фрагменти Гансардського парламенту Канади: 1,3 мільйони пар текстів із записів 36-го парламенту Канади.

Загроза: Архів понад 200 000 запитань із вікторини Шоу.

Відгуки гнилих помідорів: архів понад 480 000 відгуків критиків (свіжих чи гнилих).

Колекція SMS-спаму англійською мовою: Набір даних, що складається з 5574 англійських SMS-спам-повідомлень

Відгуки Yelp: Відкритий набір даних, опублікований Yelp, містить понад 5 мільйонів оглядів.

Spambase UCI: великий набір даних про спам, корисний для фільтрації спаму.

Набори даних щодо самостійного водіння (автономне водіння)

Berkeley DeepDrive BDD100k: На даний момент найбільший набір даних для самостійного керування AI. Містить понад 100 000 відеозаписів із понад 1100 годинним досвідом водіння в різні пори дня та погодні умови. Помічені зображення походять з районів Нью-Йорка та Сан-Франциско.

Apolloscapes Baidu: великий набір даних, який визначає 26 різних семантичних елементів, таких як автомобілі, велосипеди, пішоходи, будівлі, вуличні ліхтарі тощо.

Comma.ai: Більше 7 годин їзди по шосе. Деталі включають швидкість, прискорення, кут управління та координати GPS.

Роботизований автомобіль Оксфорда: понад 100 повторень того ж маршруту через Оксфорд, Великобританія, зроблені протягом року. Набір даних фіксує різні поєднання погоди, руху та пішоходів, а також довгострокові зміни, такі як будівництво та дорожні роботи.

Набір даних міського пейзажу: великий набір даних, який записує міські вуличні сцени у 50 різних містах.

Набір даних CSSAD: Цей набір даних корисний для сприйняття та навігації автономних транспортних засобів. Набір даних сильно перекошується на дорогах, знайдених у розвиненому світі.

KUL Бельгія набір даних про дорожні знаки: Більше 10000 анотацій дорожнього руху від тисяч фізично виразних дорожніх знаків у регіоні Фландрії в Бельгії.

Лабораторія MIT AGE: зразок 1000+ годин мультисенсорних наборів даних, зібраних у AgeLab.

LISA: Лабораторія інтелектуальних та безпечних автомобілів, набори даних UC San Diego: Цей набір даних включає дорожні знаки, виявлення транспортних засобів, світлофори та схеми траєкторії.

Малий набір даних світлофора Bosch: Набір даних для невеликих світлофорів для глибокого вивчення.

Розпізнавання світлофорів LaRa: Ще один набір даних для світлофорів. Це зроблено в Парижі.

Набори даних WPI: набори даних для світлофорів, виявлення пішоходів та смуг.

Клінічні набори даних

MIMIC-III: відкритий доступ до набору даних, розроблений лабораторією обчислювальної фізіології MIT, що включає в себе де -дентифіковані дані про стан здоров'я, пов'язані з ~ 40 000 пацієнтів з критичною допомогою. Він включає демографічні показники, життєві показники, лабораторні аналізи, ліки тощо.

Примітка:

Якщо вам відомі інші високоякісні, публічні набори даних, які ви рекомендуєте людям для дослідження та застосування машинного навчання, глибокого навчання, наукових даних тощо. Будь ласка, не соромтесь запропонувати їх разом із причинами, чому їх слід включати у коментарях нижче або електронною поштою Стейсі безпосередньо на sstanford@mlmemoirs.xyz.

Якщо причина сильна, ми їх проаналізуємо та включимо до цього списку. Крім того, повідомте нам про ваш досвід використання будь-якого з цих наборів даних у розділі коментарів.

Щасливого машинного навчання!

Подяки:

Автори хотіли б подякувати членам Спільноти ШІ за величезну підтримку, а також за конструктивну критику під час підготовки цієї статті.

ВІДМОВА ВІДПОВІДАЛЬНОСТІ: Погляди, висловлені в цій статті, є думками авторів і не представляють поглядів університету Карнегі Меллона, Machine Learning Memoirs Inc., а також інших компаній (прямо чи опосередковано), пов'язаних з автором. Ці твори не мають бути кінцевими продуктами, а скоріше відображенням сучасного мислення, а також є каталізатором для обговорення та вдосконалення.

Рекомендовані історії:

Джерела:

[1] https://cloud.google.com/public-datasets/

[2] https://guides.library.cmu.edu/c.php?g=844845&p=6191907

[3] https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/# f3bdeb5f8aec

[4] https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets

[5] https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

[6] https://www.dataquest.io/blog/free-datasets-for-projects/

[7] https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/

[8] https://github.com/awesomedata/awesome-public-datasets#machinelearning

[9] http://lib.stat.cmu.edu/datasets/

[10] Інституційні дослідження та аналіз | Загальні набори даних | https://www.cmu.edu/ira/CDS/index.html

[11] Набори даних та пропозиції проекту | Ендрю В. Мур | http://www.cs.cmu.edu/~awm/15781/project/data.html

[12] Набори даних | Сховище машинного навчання | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/

[13] Набори даних | Лінкольна лабораторія MIT | https://www.ll.mit.edu/r-d/datasets

[14] Колекція великих мережевих наборів даних Стенфорда | Стенфордський університет | https://snap.stanford.edu/data/

[15] Сенфордський загальний набір даних | Стенфордський університет | https://snap.stanford.edu/data/

[16] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab

[17] Вивчення наборів даних | Data Science в Берклі | https://datascience.berkeley.edu/open-data-sets/

[18] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/

Цитування:

Для атрибуції в академічному контексті, будь ласка, цитуйте цю роботу як

Стенфорд та ін., "Кращі публічні набори даних для машинного навчання та наукових даних", До AI, 2018

Цитування BibTex:

@misc {stanford_2018,
  title = {Найкращі набори даних для машинного навчання та наукових даних},
  url = {https://towardsai.net/datasets},
  note = {https://towardsai.net/datasets},
  журнал = {Середній},
  publisher = {До AI},
  автор = {Стенфорд, Стейсі та Іріондо, Роберто},
  рік = {2018},
  місяць = {жовт.}
}