Apache Hive обяснено за 5 минути или по-малко [+5 Learning Resources]

Apache Hive е разпределена, устойчива на грешки система за съхранение на данни, която позволява анализи в огромен мащаб.

Складът за данни е система за управление на данни, която съхранява големи количества исторически данни, извлечени от различни източници с цел анализ на данни и отчитане. Това от своя страна подпомага бизнес разузнаването, водещо до по-информирано вземане на решения.

Данните, използвани в Apache Hive, се съхраняват в Apache Hadoop, рамка за съхранение на данни с отворен код за разпределено съхранение и обработка на данни. Apache Hive е изграден върху Apache Hadoop и по този начин съхранява и извлича данни от Apache Hadoop. Могат обаче да се използват и други системи за съхранение на данни, като Apache HBase.

Най-хубавото на Apache Hive е, че позволява на потребителите да четат, пишат и управляват големи набори от данни и да заявяват и анализират данните, използвайки Hive Query Language (HQL), подобен на SQL.

Как работи Apache Hive

Apache Hive предоставя интерфейс на високо ниво, подобен на SQL, за заявки и управление на големи количества данни, съхранявани в разпределената файлова система Hadoop (HDFS). Когато потребител изпълни заявка в Apache Hive, заявката се превежда в поредица от задания на MapReduce, изпълнявани от клъстера Hadoop.

MapReduce е модел за паралелна обработка на големи количества данни в разпределени клъстери от компютри. След като задачите на MapReduce са завършени, техните резултати се обработват и комбинират, за да се получи един краен резултат. Крайният резултат може да бъде съхранен в Hive таблица или експортиран в HDFS за допълнителна обработка или анализ.

Заявките в Hive могат да се изпълняват по-бързо чрез използване на дялове за разделяне на таблиците на Hive на различни части въз основа на информацията за таблицата. Тези дялове могат да бъдат разбити още повече, за да позволят много бързи заявки за големи набори от данни. Този процес е известен като изместване в контейнери.

Apache Hive е задължителен за организации, работещи с големи данни. Това е така, защото им позволява лесно да управляват големи набори от данни, да обработват данните по много бърз начин и лесно да извършват сложен анализ на данните върху данните. Това води до изчерпателни и подробни отчети от наличните данни, позволяващи по-добро вземане на решения.

Ползи от използването на Apache Hive

Някои от предимствата на използването на Apache Hive включват следното:

Лесен за използване

Чрез разрешаване на заявки за данни с помощта на HQL, подобно на SQL, използването на Apache Hive става достъпно както за програмисти, така и за непрограмисти. Следователно анализът на данни може да се извършва върху големи набори от данни, без да се изучава нов език или синтаксис. Това е ключов принос за приемането и използването на Apache Hive от организациите.

  Защо UEFI фърмуерът на вашия компютър се нуждае от актуализации на защитата

Бърз

Apache Hive позволява много бърз анализ на големи набори от данни чрез пакетна обработка. При пакетната обработка големи набори от данни се събират и обработват в групи. По-късно резултатите се комбинират, за да се получат крайните резултати. Чрез пакетна обработка Apache Hive позволява бърза обработка и анализ на данни.

Надежден

Hive използва Hadoop Distributed File System (HDFS) за съхранение на данни. Като работят заедно, данните могат да бъдат копирани, когато се анализират. Това създава устойчива на грешки среда, в която данните не могат да бъдат загубени дори при повреда на компютърните системи.

Това позволява на Apache Hive да бъде много надежден и устойчив на грешки, което го отличава сред другите системи за съхранение на данни.

Мащабируем

Apache Hive е проектиран по начин, който му позволява лесно да мащабира и обработва нарастващи набори от данни. Това предоставя на потребителите решение за съхранение на данни, което се мащабира според техните нужди.

Рентабилен

В сравнение с други решения за съхранение на данни, Apache Hive, който е с отворен код, е сравнително по-евтин за работа и следователно е най-добрият вариант за организации, които искат да намалят до минимум разходите за печелившите операции.

Apache Hive е стабилно и надеждно решение за съхранение на данни, което не само се мащабира според нуждите на потребителя, но също така предоставя бързо, рентабилно и лесно за използване решение за съхранение на данни.

Функции на Apache Hive

Основните функции в кошера на Apache включват:

#1. Hive сървър 2 (HS2)

Той поддържа удостоверяване и едновременност на множество клиенти и е проектиран да предлага по-добра поддръжка за отворени API клиенти като Java Database Connectivity (JDBC) и Open Database Connectivity (ODBC).

#2. Hive Metastore сървър (HMS)

HMS действа като централно хранилище за метаданните на Hive Tables и дялове за релационна база данни. Метаданните, съхранявани в HMS, се предоставят на клиенти чрез API на услугата metastore.

#3. Hive ACID

Hive гарантира, че всички извършени транзакции са съвместими с ACID. ACID представлява четирите желани характеристики на транзакциите в базата данни. Това включва атомарност, последователност, изолация и издръжливост.

#4. Уплътняване на данни в кошера

уплътняването на данни е процес на намаляване на размера на данните, които се съхраняват и предават, без да се компрометира качеството и целостта на данните. Това се прави чрез премахване на излишните и неподходящи данни или чрез използване на специално кодиране, без да се компрометира качеството и целостта на данните, които се уплътняват. Hive предлага готова поддръжка за уплътняване на данни.

#5. Репликация на кошера

Hive има рамка, която поддържа репликацията на метаданни на Hive и промени в данните между клъстери с цел създаване на резервни копия и възстановяване на данни.

#6. Сигурност и наблюдаемост

Hive може да се интегрира с Apache Ranger, рамка, която позволява наблюдение и управление на сигурността на данните, и с Apache Atlas, което позволява на предприятията да отговарят на своите изисквания за съответствие. Hive също поддържа Kerberos удостоверяване, мрежов протокол, който защитава комуникацията в мрежата. Трите заедно правят Hive защитен и видим.

#7. Кошер LLAP

Hive има аналитична обработка с ниска латентност (LLAP), което прави Hive много бърз чрез оптимизиране на кеширането на данни и използване на постоянна инфраструктура за заявки.

#8. Оптимизация на базата на разходите

Hive използва базиран на разходите оптимизатор на заявки и рамка за изпълнение на заявки от Apache Calcite, за да оптимизира своите SQL заявки. Apache Calcite се използва за изграждане на бази данни и системи за управление на данни.

  Администриране на IP адрес и пароли по подразбиране на рутера

Горните функции правят Apache Hive отлична система за съхранение на данни

Случаи на употреба за Apache Hive

Apache Hive е универсално решение за съхранение на данни и анализ на данни, което позволява на потребителите лесно да обработват и анализират големи количества данни. Някои от случаите на използване на Apache Hive включват:

Анализ на данни

Apache Hive поддържа анализа на големи набори от данни с помощта на SQL-подобни изрази. Това позволява на организациите да идентифицират модели в данните и да направят смислени заключения от извлечените данни. Това е полезно при създаването на дизайн. Примери за компании, които използват Apache Hive за анализ на данни и заявки, включват AirBnB, FINRA и Vanguard.

Пакетна обработка

Това включва използването на Apache Hive за обработка на много големи набори от данни чрез разпределена обработка на данни в групи. Това има предимството да позволява бърза обработка на големи набори от данни. Пример за компания, която използва Apache Hive за тази цел, е Guardian, компания за застраховане и управление на богатство.

Съхранение на данни

това включва използването на кошер Apache за съхраняване и управление на много големи масиви от данни. В допълнение към това, съхранените данни могат да бъдат анализирани и отчети, генерирани от. Компаниите, които използват Apache Hive като решение за склад за данни, включват JPMorgan Chase и Target.

Маркетинг и клиентски анализ

организациите могат да използват Apache Hive, за да анализират своите клиентски данни, да извършват сегментиране на клиентите и да могат да разбират по-добре своите клиенти, както и да настройват своите маркетингови усилия, за да съответстват на разбирането им за техните клиенти. Това е приложение, за което всички компании, които обработват клиентски данни, могат да използват Apache Hive.

Обработка на ETL (извличане, трансформиране, зареждане).

Когато работите с много данни в хранилище за данни, е необходимо да се извършат операции като почистване, извличане и трансформация на данни, преди данните да могат да бъдат заредени и съхранени в система за съхранение на данни.

По този начин обработката и анализът на данните ще бъдат бързи, лесни и без грешки. Apache Hive може да изпълнява всички тези операции, преди данните да бъдат заредени в хранилище за данни.

Горното представлява основните случаи на използване на Apache Hive

Ресурси за обучение

Apache hive е много полезен инструмент за съхранение на данни и анализ на големи масиви от данни. Организациите и лицата, работещи с големи набори от данни, могат да се възползват от използването на Apache hive. За да научите повече за Apache Hive и как да го използвате, разгледайте следните ресурси:

#1. Hive To ADVANCE Hive (използване в реално време)

Hive to Advance Hive е най-продаваният курс за Udemy, създаден от J Garg, старши консултант по големи данни с повече от десетилетие опит в работата с технологиите на Apache за анализ на данни и обучение на други потребители.

Това е единствен по рода си курс, който отвежда обучаемите от основите на Apache Hive до напреднали концепции и също така включва раздел за случаи на употреба, използвани в интервюта за работа в Apache Hive. Той също така предоставя набори от данни и заявки за Apache Hive, които учащите могат да използват, за да практикуват, докато учат.

Някои от обхванатите концепции на Apache Hive включват разширени функции в Hive, техники за компресиране в Hive, конфигурационни настройки на Hive, работа с множество таблици в Hive и зареждане на неструктурирани данни в Hive.

  Как да коригирате Netflix „Изглежда, че използвате деблокер или прокси сървър.“ 2024 (април)

Силата на този курс се крие в задълбоченото покритие на усъвършенстваните Hive концепции, използвани в проекти от реалния свят.

#2. Apache Hive за инженери на данни

Това е практически базиран на проекти курс по Udemy, който учи обучаемите как да работят с Apache Hive от ниво за начинаещи до ниво за напреднали, като работят върху проекти от реалния свят.

Курсът започва с преглед на Apache Hive и обяснява защо е необходим инструмент за инженерите на данни. След това изследва архитектурата на Hive, нейната инсталация и необходимите конфигурации на Apache Hive. След полагането на основата, курсът продължава да обхваща потоци на заявки за кошер, характеристики на кошер, ограничения и модел на данни, използван в кошера на Apache.

Той също така обхваща тип данни, език за дефиниране на данни и език за манипулиране на данни в Hive. Последните раздели обхващат усъвършенствани концепции на Hive като изгледи, разделяне, групиране, присъединявания и вградени функции и оператори.

Като капак на всичко, курсът обхваща често задавани въпроси и отговори за интервю. Това е отличен курс да научите за Apache Hive и как може да се приложи в реалния свят.

#3. Apache Hive Basic за напредване

Apache Hive Basic to advance е курс от Anshul Jain, старши инженер по данни с много опит в работата с Apache Hive и други инструменти за големи данни.

Това представя концепциите на Apache Hive по лесен за разбиране начин и е подходящо за начинаещи, които искат да научат въжетата на Apache Hive.

Курсът обхваща HQL клаузи, прозоречни функции, материализиран изглед, CRUD операции в Hive, обмен на дялове и оптимизация на производителността, за да се позволи бързо търсене на данни.

Този курс ще ви даде практическо изживяване с Apache Hive в допълнение към справянето с общи въпроси за интервю, които вероятно ще срещнете, когато кандидатствате за работа.

#4. Apache Hive Essentials

Тази книга е особено полезна за анализатори на данни, разработчици или всеки, който се интересува да научи как да използва Apache Hive.

Авторът има повече от десетилетие опит като практик за големи данни, проектиране и внедряване на корпоративна архитектура за големи данни и анализи в различни индустрии.

Книгата обхваща как да създадете и настроите среда на Hive, да опишете ефективно данни с помощта на дефиниционния език на Hive и да съедините и филтрирате набори от данни в Hive.

Освен това, той обхваща трансформации на данни с помощта на сортиране, подреждане и функции на Hive, как да агрегираме и извадки от данни и как да подобрим производителността на заявките в Hive и да подобрим сигурността в Hive. И накрая, той обхваща персонализациите в Apache Hive, като учи потребителите как да настройват Apache Hive, за да обслужват техните нужди от големи данни.

#5. Готварска книга Apache Hive

Apache Hive Cookbook, наличен в Kindle и с меки корици, предоставя лесен за следване, практически поглед върху Apache Hive, което ви позволява да научите и разберете Apache Hive и неговата интеграция с популярни рамки за големи данни.

Тази книга, предназначена за читатели с предварителни познания по SQL, обхваща как да конфигурирате Apache Hive с Hadoop, услуги в Hive, модел на данни на Hive и език за дефиниране и манипулиране на данни на Hive.

Освен това, той обхваща функциите за разширяване в Hive, обединяването и оптимизирането на присъединяването, статистиката в Hive, функциите на Hive, настройката на Hive за оптимизиране и сигурността в Hive и завършва със задълбочено покритие на интеграцията на Hive с други рамки.

Заключение

Струва си да се отбележи, че Apache Hive се използва най-добре за традиционни задачи за съхранение на данни и е неподходящ за обработка на онлайн транзакции. Apache е проектиран да увеличи максимално производителността, мащабируемостта, устойчивостта на грешки и хлабавото свързване с входните си формати.

Организациите, които боравят и обработват големи количества данни, могат да се възползват изключително много от надеждните функции, предлагани от Apache Hive. Тези функции са много полезни при съхраняване и анализиране на големи набори от данни.

Можете също така да проучите някои основни разлики между Apache Hive и Apache Impala.