Что такое Big Data?

Загальний розділ

Великі дані стають невід'ємною частиною нашого життя. Всі ми щодня використовуємо будь-які технології та контактуємо з продуктами та великими компаніями. Компанії пропонують нам свої продукти і, у свою чергу, використовують дані, які ми надаємо (починаючи від відстеження переходів на сайті і закінчуючи персональною інформацією при оформленні замовлень). Настав момент детальніше розібратися, як збираються ці величезні потоки інформації та що з ними роблять. У цьому вам допоможе онлайн-курс Big Data з нуля!

Big Data – що це таке?

Офіційного та точного визначення все ще немає. Те, що одна людина вважає великими даними, в очах іншої може бути традиційним набором даних. І тут постає питання. Наскільки великі дані? Згідно з Forbes, щодня створюється 2,5 квінтильйона байтів даних. Оскільки великі дані настільки великі, знадобилася нова термінологія визначення розміру цих даних. Big Data складаються з петабайт (понад 1 мільйон гігабайт) та ексабайт (понад 1 мільярд гігабайт), на відміну від гігабайт, характерних для персональних пристроїв.

У результаті термін «великі дані» можна віднести до величезної кількості даних, доступних організаціям, які через свій обсяг і складність не піддаються легкому управлінню чи аналізу за допомогою багатьох інструментів бізнес-аналітики.

Історія виникнення

Назва Big Data з'явилася у 2000-х, але концепція обробки великої кількості даних виникла набагато раніше. Змінювався лише обсяг та масштаб. У 1960-х роках почали створюватися перші сховища великих даних, а через сорок років компанії побачили, скільки наборів даних можна зібрати за допомогою онлайн-сервісів, сайтів, додатків і будь-яких продуктів, з якими взаємодіють клієнти. Саме тоді почали набирати популярності перші сервіси Big Data (Hadoop, NoSQL тощо). Наявність таких інструментів стала необхідною, оскільки вони спрощують та здешевлюють зберігання та аналіз.

Великі дані часто характеризуються трьома факторами: великим обсягом, великою різноманітністю типів даних, що зберігаються в системах, та швидкістю, з якою дані генеруються, збираються та обробляються. Ці характеристики були вперше виявлені Дугом Лейні, аналітиком у Meta Group Inc., у 2001 році. Компанія Gartner популяризувала їх після того, як 2005 року придбала Meta Group. Поступово до цих описів великих даних стали додаватися й інші критерії (достовірність, цінність тощо).

У 2008 році з Кліффорд Ліна у спецвипуску журналу Nature експерт назвав вибухове зростання потоків інформації big data. До нього він відніс будь-які масиви неоднорідних даних понад 150 Гб на добу. З того часу термін «великі дані» міцно зміцнився.