Складові Google Cloud

Хмарні технології обробки даних

Ігор Мірошниченко

КНУ імені Тараса Шевченка | ФІТ

Інфраструктура

Що таке хмарні обчислення?

Хмарні обчислення - це доступ до обчислювальних ресурсів, включаючи сервери, сховища, бази даних, мережі, програмне забезпечення, аналітику та інтелектуальні можливості, що надаються на вимогу через через Інтернет.

Це позбавляє підприємства необхідності самостійно закуповувати, налаштовувати або керувати цими ресурсами, дозволяючи їм платити лише за те, що вони використовують.

Переваги хмарних технологій

  • Гнучкість: Ви можете отримати доступ до хмарних ресурсів з будь-якої точки світу та масштабувати послуги за потреби.
  • Ефективність: Ви можете розробляти нові додатки та швидко запускати їх у виробництво, не турбуючись про базову інфраструктуру.
  • Стратегічна цінність: Коли ви обираєте хмарного провайдера, який відстежує останні інновації та пропонує їх як послуги, це відкриває для вас можливості скористатися конкурентними перевагами та отримати вищу віддачу від інвестицій.
  • Безпека: Глибина та широта механізмів безпеки, що надаються хмарними провайдерами, забезпечують надійніший захист, ніж у багатьох корпоративних центрах обробки даних. центрів обробки даних. Крім того, над пропозиціями хмарних провайдерів працюють найкращі експерти з безпеки.
  • Економічна ефективність: Ви платите лише за ті обчислювальні ресурси, які використовуєте. Оскільки вам не потрібно нарощувати потужності центру обробки даних, щоб впоратися з несподіваними стрибками попиту або раптовим зростанням бізнесу, ви можете спрямувати ресурси та ІТ-персонал на більш стратегічні ініціативи.

Сховище

Що таке хмарне сховище?

Фундаментальні характеристики ефективного сервісу хмарного зберігання даних включають:

  • Безпека - дані зберігаються надійно (зашифровані в стані спокою та під час передачі).
  • Довговічність - дані зберігаються з надлишком, тому вони не втрачаються у випадку збою.
  • Доступність - дані доступні в будь-який час, коли вони потрібні. Поширені випадки використання хмарних сховищ включають
  • Відповідність нормативним вимогам і безперервність бізнесу - ви можете використовувати можливості резервного копіювання та відновлення даних у хмарному сховищі, щоб відповідати вимогам щодо відповідності нормативним вимогам і безперервності бізнесу.
  • Озера даних - ви можете використовувати озера даних на базі хмарного сховища для зберігання інформації в необробленому/природному вигляді з метаданими для вибіркового доступу та аналізу даних.
  • Розробка додатків - Сховище має вирішальне значення для розробки та тестування. Ви можете використовувати хмарні сховища для глобального зберігання та обслуговування статичних файлів (для веб-сайтів), створення швидких додатків і розгортання спільних файлових систем для команд.

Бази даних

Переваги хмарних баз даних

  • Керованість: Хмарні бази даних пропонують можливості для автоматизації прогнозування баз даних, управління ємністю сховища та інших трудомістких завдань управління.
  • Масштабованість: Зі збільшенням або зменшенням обсягу даних, що зберігаються у вашій хмарній базі даних, ємність сховища можна регулювати під час виконання, щоб встигнути за змінами.
  • Легкий доступ: До хмарних баз даних можна легко отримати доступ через мережу за допомогою API або веб-консолі.
  • Відновлення після збоїв: Керовані бази даних пропонують автоматизоване резервне копіювання та відновлення, щоб повернути екземпляри до попереднього стану.
  • Безпека: Хмарні бази даних є безпечними, пропонуючи шифрування даних у стані спокою та під час передачі, а також приватне підключення до додатків, які взаємодіють з ними.

Аналітика даних

Конвеєр аналізу даних

Типовий конвеєр аналізу даних починається з озера даних - централізованого сховища для зберігання всіх ваших структурованих і неструктурованих даних у великому обсязі в необробленому вигляді.

Конвеєр обробляє дані, очищаючи, збагачуючи та трансформуючи їх, щоб зробити корисними для наступних застосунків.

Сховище даних зберігає оброблені дані в реляційному форматі, доступному через SQL.

Команди аналітиків, бізнес-аналітиків і фахівців з науки про дані отримують доступ до даних для створення інформаційних панелей, моделей машинного навчання тощо.

5 кроків до створення конвеєра аналізу даних

  1. Отримання: Спочатку ви отримуєте дані з різних джерел. Це можуть бути як пакетні дані, так і дані в реальному часі.
    1. Пакетні дані - це дані, які зберігаються протягом певного періоду часу і надалі обробляються масово.
    2. Дані в реальному часі генеруються з веб-сайтів, наприклад, дані потоку кліків або пристрої Інтернету речей, які надсилають потоки даних для обробки.
  2. Обробка: Після того, як дані отримані, вони обробляються і збагачуються, щоб подальша система могла використовувати їх у форматі, який вона розуміє найкраще. На етапі обробки до даних застосовується бізнес-логіка, а потім дані скидаються на накопичувач, який є пристроєм зберігання збагачених і оброблених даних. Наприклад: Ваша бізнес-логіка вимагає, щоб вхідні дані були створені і токенізовані з міркувань безпеки, а потім скидає токенізовані дані на пристрій зберігання.
  3. Зберігання: Після обробки даних їх потрібно зберігати, щоб можна було запускати аналітичні проекти. Існує два типи сховищ, які можна використовувати на цьому етапі конвеєра:
    1. Сховище даних - це сховище для структурованих, відфільтрованих даних, які вже були оброблені з певною метою. Наприклад: спеціальна звітність, аналіз, вітрини даних, машинне навчання.
    2. Озеро даних - це великий пул необроблених даних, призначення яких або проміжне, або ще не визначене. Озеро даних - це централізоване сховище, призначене для безпечного зберігання великих обсягів структурованих, напівструктурованих і неструктурованих даних. Воно може зберігати дані у власному форматі та обробляти будь-які їхні різновиди, ігноруючи обмеження на розмір.
  4. Аналізувати: Дані, що зберігаються у сховищі даних, можуть бути використані подальшими системами для аналізу. На цьому етапі аналітики даних і фахівці з аналізу даних можуть виконувати запити до даних, щоб досліджувати їх для своїх цілей.
  5. Використання: Після того, як дані потрапляють до сховища даних, вони можуть бути використані різними внутрішніми користувачами, такими як аналітики даних та науковці. Аналітики можуть аналізувати дані, а фахівці з даних можуть витягувати ті самі дані в Jupyter Notebook або навчати на них модель машинного навчання. Вони можуть створювати вітрини даних, інформаційні панелі та звіти для бізнес-цілей або інтегрувати їх із зовнішніми системами даних та звітності.

Фактори конвеєра аналізу даних

На всіх цих етапах конвеєра аналітики даних діють кілька факторів:

  • Інтеграція даних - дані завжди знаходяться в різних місцях; на будь-якому етапі вам може знадобитися послуга інтеграції даних, яка об’єднає дані з інших систем в одному місці, наприклад, в озері даних.
  • Управління метаданими - Data scientists і аналітики даних повинні мати можливість швидко знаходити, розуміти і управляти всіма вашими даними в одному місці. Саме тут наявність системи управління метаданими дозволяє вам демократизувати дані та ідеї як для технічних, так і для бізнес-користувачів.
  • Організація робочого процесу - Конвеєри даних не запускаються одноразово; більшість конвеєрів потрібно планувати і запускати протягом певного періоду часу, а також визначати завдання. Для виконання цих завдань потрібен інструмент оркестрування потоків даних, щоб легко створювати, планувати і контролювати конвеєри.

Наука про дані

Дякую за увагу!



@araprof

@datamirosh

aranaur.rbind.io

aranaur

ihormiroshnychenko