26 страхотни отворени набора от данни за вашите Data Science/ML проекти

Търсенето на правилните набори от данни може да бъде обезсърчително, особено когато имате нужда от тях за проекти за машинно обучение (ML) и наука за данни. Ние намаляваме вашите изследователски усилия, като предоставяме най-добрия списък с безплатни набори от данни.

Наборите от данни са просто колекции от данни. Това може да са финансови данни, данни за здравето на общността, борсови данни, банкови данни, географски данни, данни от научни изследвания за частици, рейтинги на продукти в сайт за електронна търговия и др.

Наборите от данни съдържат данни, събрани чрез стандарт за научно проучване и са важни за по-нататъшна визуализация, извличане, прогнозиране и т.н. Тъй като данните са еквивалент на суровия петрол в цифровата вселена, наборите от данни стават комерсиални и оскъдни.

Продължете да четете, за да разберете основите за наборите от данни. Ще откриете и някои набори от данни с отворен код, които са наистина безплатни за вашите проекти за машинно обучение (ML) или наука за данни.

Съдържание

Какво представляват наборите от данни?

Наборите от данни са колекция от данни в структуриран и организиран контейнер. Обикновено геодезистите свързват набори от данни с уникално тяло, например отворени данни на Световната банка.

Отново събирачите на данни съхраняват наборите от данни, специфични за тема като данните от преброяването на населението на Съединените американски щати през 2020 г., публикувани от Бюрото за преброяване на населението на Съединените щати.

Ще намерите много набори от данни за глобални и местни проблеми. Повечето набори от данни съдържат взаимосвързани точки от данни. Например, населението на дадена страна и как затлъстяването е свързано с различните класове от това население.

Учените по данни може да се наложи да почистят, преструктурират и обработят такива набори от данни, като използват инструменти за големи данни, за да стигнат до ценни заключения като намаляване на пластмасовите отпадъци чрез анализиране на данни за употребата на пластмаса, отстраняване на проблеми с работната сила чрез анализиране на данни за заплатите, обучение на изкуствен интелект (AI) и т.н. На.

Типове набори от данни

В зависимост от източника на наборите от данни, те могат да бъдат публични или частни. Публичните набори от данни са отворени за всички и допринасят много за научни изследвания и развитие.

Отново наборите от данни могат да бъдат от следните типове в зависимост от информацията, съдържаща се в тях:

  • Многовариантност: Такива данни съдържат множество променливи.
  • Категоричен: Изобразява много категории хора.
  • Числен: Такива набори от данни измерват данни в числа като възраст, височина и т.н.
  • Корелация: При този тип точките от данни са взаимно свързани.
  • Базиран на файл: Тук наборите от данни се съхраняват във файлове.
  • Двумерен: набор от данни с две променливи и връзка между тях.
  • Уеб набор от данни: Данни, събрани от един или много подобни интернет портали.
  • База данни: Такива набори от данни съхраняват данни в таблици, колони и редове.
  Изчезващи раздели на Safari на iPhone/iPad: 7 поправки, които да опитате!

Набори от данни с отворен код за проекти в областта на науката за данни

Безплатните набори от данни са горивото за захранване на страстта ви към кариера в науката за данни. Защото, ако сте в ранните етапи на вашата кариера в науката за данни, може да искате да поемете лични и некомерсиални проекти за самочувствие или изграждане на портфолио.

Първо, можете лесно да тествате своите новонаучени умения, като прилагате инструменти и техники към проблеми с набор от данни в реалния свят.

Например има свободно достъпни данни от изследвания на рака, данни от Covid-19, данни от криминални досиета на ФБР, данни от анализ на частици от CERN и т.н. Можете да използвате такива данни и да изградите научен модел на данни, за да отговорите на жизненоважни социални, финансови и здравни въпроси .

Второ, такива проекти работят като подобрители на портфолиото за вашата кариера. Ако можете да изградите успешен модел за анализ на данни, който може да предложи полезни прозрения, можете да покажете тези модели онлайн, като създадете уебсайтове за портфолио. Работодателите предпочитат проекти пред декларации за цел.

Безплатни набори от данни за проекти за машинно обучение

Подобно на професионалист в областта на науката за данни, професионалистът по ML също трябва да работи върху самостоятелно управлявани проекти, за да провери уменията си. Ако проектът стане успешен, той също се превръща в идеален компонент за вашето онлайн или офлайн портфолио от ML проекти.

Следователно вече можете да разберете, че науката за данни и растежът на машинното обучение зависят от структурираните набори от данни. Ако такива набори от данни бяха твърде комерсиализирани, научните изследвания и разработки в областта на науката за данни биха станали изцяло корпоративно ориентирани.

За да останат научните изследвания за ML отворени за всички, следните агенции, институции и платформи предлагат безплатни набори от данни:

Data.gov

Ще намерите всички отворени данни, събрани и обработени от правителството на САЩ. в Data.gov. Платформата също така предлага ресурси и инструменти за провеждане на изследвания, проектиране на визуализации на данни, разработване на мобилни/уеб приложения и т.н.

Неговите забележителни набори от данни включват данни за устойчиво използване на земята, данни за селски жилища, вътрешни електронни навигационни карти и др.

Отворени набори от данни: Kaggle

Kaggle предлага океан от публични данни и компютърни кодове за научни проекти за данни. Можете да изберете набори от данни за необработени данни и код за програмни кодове. Тенденциите от набори от данни в Kaggle са данни от AMEX, гледаемост на Simpsons, данни за обучение на чатбот и др.

Набори от данни за сегменти: YouTube 8-M

Наборите от данни за сегменти от YouTube 8-M ви предлагат анотации за сегменти, проверени от човешки одитори. Можете също да получите достъп до набора от данни YouTube-8M от същия портал. Наборът от данни съдържа 6,1 милиона видео ID, 350 000 часа видео, 2,6 милиарда аудио/визуални функции, 3863 класа видеоклипове и средно 3,0 етикета на видеоклип.

Регистър на отворените данни на AWS

ROD на AWS помага на специалистите по данни да споделят и откриват набори от данни, хоствани на ресурси на AWS. Някои интересни набори от данни, които можете да намерите тук, са The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl и др.

  Silent Tab забавя зареждането на страницата във Firefox, докато не преминете към раздела

Хранилище за машинно обучение: UCI

UCI Machine Learning Repository понастоящем поддържа 622 набора от данни, подходящи за специалисти по данни и инженери на машинно обучение, за да обучават своите AI модели. Освен това има интерфейс с възможност за търсене за изследване на базите данни. Популярни атракции са наборът от данни за акселерометъра, наборът от данни за синхронната машина, основният материал на Wikipedia Math Essentials, наборът от данни за турски заглавия и др.

Публични набори от данни на BigQuery: Google Cloud

Много публични набори от данни се съхраняват в BigQuery. Google прави набора от данни достъпен безплатно чрез програмата Google Cloud Public Dataset. Безплатната заявка обаче има лимит от 1 TB на месец. Можете да изпълнявате стандартни SQL и стари SQL заявки.

Страхотни публични набори от данни: GitHub

Awesome Public Datasets е набор от данни с отворен код, който съдържа публични данни, ориентирани към теми. Събран и сортиран от различни блогове, отговори и обратна връзка от потребителите, той комбинира безплатни и платени набори от данни за физика, спорт, софтуер, естествен език и машинно обучение.

Данни на Световната банка

Open Data на Световната банка е платформата, където получавате безплатен достъп до данни за глобалното развитие. Той също така предлага други ценни ресурси като предварително форматирани таблици и отчети. Можете лесно да разглеждате по държава или индикатор, за да получите необходимия набор от данни.

FiveThirtyEight: Данни

FiveThirtyEight е американски уебсайт, който се занимава с анализи на общественото мнение, политика, икономика и спорт. Можете да получите достъп до тези анкети и прогнози чрез набори от данни от неговата платформа. Можете да изтеглите наборите от данни с едно кликване.

ImageNet

ImageNet е база данни с изображения, от която изследователите по целия свят могат да получат набори от данни с отворен код за своите некомерсиални проекти. Тук изображенията са организирани въз основа на йерархията на WordNet. Проектът играе жизненоважна роля в изследванията на дълбоко обучение на напреднало ниво.

Архив на набори от данни: ДАННИ НА УНИЦЕФ

С помощта на архивите на набори от данни можете да се сдобиете с набори от данни, събрани от УНИЦЕФ по целия свят. Данни за миграция, разселване, диета, свързаност, образование, здраве, учене, смъртност, насилие, развитие в детството, детски бракове, детски труд и различни статистики са достъпни тук.

Намерете отворени данни: Govt. на Обединеното кралство

Ако вашият проект се нуждае от данни, публикувани от местните органи и централното правителство на Обединеното кралство, Find Open Data е порталът, който трябва да разгледате. Той обхваща държавни разходи, бизнес, здравеопазване, образование, отбрана и други набори от данни.

Данни: Бюрото за преброяване на населението на САЩ

Имате ли нужда от данни от преброяването в САЩ за съответен проект? Можете да получите помощ от USCB Data. Тук можете да изследвате данни от преброяването през 2020 г., таблици, карти и профили на данни, докато визуализирате данни и използвате инструменти за данни.

Данни и статистика: CDC

Федералната агенция на Съединените щати Центрове за контрол и превенция на заболяванията също предоставя безплатни набори от данни на обществеността за достъп до данни и статистики от този портал. Темите на набора от данни са Здраве на околната среда, Хронични заболявания, Раждаемост и раждаемост, Смъртни случаи и смъртност, Очаквана продължителност на живота, Наранявания и насилие, Репродуктивно здраве, Болести, подлежащи на национално обявяване, и др.

Набори от данни: MIT

Този набор от данни се фокусира върху данни за вибрации, предизвикани от вихър. Центърът за океанско инженерство в MIT хоства някои публично достъпни набори от данни за сравнителен анализ на компютърен код. Наборите от данни са отворени за всички, за да поканят нови теории от данните и да синхронизират изследователи, работещи в същата област.

  Как да блокирате номер от обаждания и текстови съобщения в T-Mobile

Каталог на данните на Световната банка

Каталогът с данни събира безплатни набори от данни, които правят данните на Световната банка, свързани с развитието, лесно достъпни. Използването му в различни проекти е лесно, тъй като можете лесно да намерите и изтеглите предпочитаната от вас информация. Той съдържа над 5000 набора от данни, обхващащи микроданните, финансите и енергийните платформи на Световната банка.

Данни на НАСА за космически науки

НАСА предлага достъп до своите архивни данни в координирания архив на данните за космическите науки. Тази платформа е голяма помощ за широката общественост, особено за хората, работещи в образованието и космическите изследвания. Той има 400 TB цифрови данни, съдържащи информация за 550 космически науки.

Вземете данните: В Airbnb

Airbnb е световно известен онлайн пазар за квартири и ваканционни квартири под наем. Той също така предлага събиране на данни за различни градове по света от Get the Data. Можете да разглеждате града, за да получите бързо данните. Освен това можете да поискате необходимите си данни и да прочетете предположения за данни на този портал.

Уеб данни: Amazon Reviews

Тези, които се интересуват от пазарни проучвания и прегледи на продукти, трябва да използват наборите от данни, предоставени от Snap Web Data. Той съдържа повече от 34 милиона потребителски рецензии на Amazon от юни 1995 г. до март 2013 г. Наборът от данни съдържа обикновен текст, информация за продукта, потребителско име, оценки и преглед.

Данни на МВФ

Порталът за данни на МВФ е ценен за всички видове икономически и финансови данни. Независимо дали търсите финансови данни на МВФ, статистика за външен сектор, водещи публикации или микроикономически данни, това е мястото, където можете да ги намерите. Освен това можете да използвате филтър, за да получите данни по държави.

Google Books Ngrams

Ако работите върху части на речта и език, Google Books Ngrams може значително да ви помогне. Този набор от данни с отворен код ви дава представа за използването на определена дума и фраза в историята или конкретен период от време. Източникът на този набор от данни са цифровите документи, индексирани от Google.

Пазарни данни: The Financial Times

Ако искате да се сдобиете с надеждни и точни глобални и регионални данни за пазара на акции, Markets Data от The Financial Times е тук, за да ви помогне. Позволява ви да работите с пазарни данни от Америка, Азиатско-тихоокеанския регион, Европа, Африка и световния пазар.

Земни данни: НАСА

НАСА предоставя пълен и отворен достъп до своите научни данни чрез програмата за данни за Земята, която ви помага да разберете нашата родна планета и да правите проекти с нея. Можете да намерите безплатни набори от данни за атмосферата, биосферата, криосферата, човешките измерения, земната повърхност, океана, твърдата земя, взаимодействието слънце-земя и земната хидросфера.

Търсене на набор от данни: Google

Ако сте студент, изследовател или специалист по данни, който търси набори от данни, които да подкрепят вашия проект, можете да потърсите помощ от портала за търсене на набори от данни. Можете да го наречете търсачка за набори от данни, тъй като ви позволява да откривате набори от данни, хоствани в различни отчети в мрежата чрез търсене по ключови думи.

Отворени данни: CERN

Европейската изследователска организация CERN има портал за отворени данни, който можете да използвате за достъп до данните, генерирани от изследвания в CERN. Този портал за набор от данни съдържа два петабайта данни, свързани с физиката на елементарните частици. Освен това идва с приложения и документация, необходими за анализ на данни.

Изследовател на данни за престъпността: ФБР

Crime Data Explorer (CDE) е набор от данни с отворен код от ФБР, който има за цел да осигури по-лесен достъп до споделяне на данни за криминални, некриминални и правоприлагащи органи. Освен че ви позволява да откривате необходимите данни чрез визуализация и филтриране по категории, тази платформа ви позволява да изтегляте данни във формат CSV.

Заключителни думи

Досега сте преминали през наистина изчерпателен списък от висококачествени набори от данни. Статията представя данни от различни ниши като физика, медицински досиета, космически изследвания, криминални досиета, рейтинги на продукти и др.

В зависимост от проекта за наука за данни или машинно обучение, който правите, можете да изберете. Почти всички набори от данни също имат подходящи инструкции, които да ви помогнат с вашия проект.

Може също да се интересувате от тези ресурси, за да научите науката за данните и машинното обучение.