Топ-88 запитань і відповідей на інтерв’ю з моделювання даних (2025)
Моделювання даних Інтерв'ю Питання та відповіді для першокурсників
1) Що таке моделювання даних?
Моделювання даних — це процес створення моделі для зберігання даних у базі даних. Це концептуальне представлення об’єктів даних, зв’язок між різними об’єктами даних і правила.
2) Поясніть різні типи моделей даних
В основному існує три різні типи моделей даних:
Концептуальна: Концептуальна модель даних визначає, що повинна містити система. Ця модель зазвичай створюється бізнес-стейкхолдерами та архітекторами даних. Мета полягає в організації, охопленні та визначенні бізнес-концепцій і правил.
Логічні: Визначає, як система повинна бути реалізована незалежно від СУБД. Ця модель зазвичай створюється архітекторами даних і бізнес-аналітиками. Метою є розробка технічної карти правил і структур даних.
Фізичні: Ця модель даних описує, як система буде реалізована за допомогою конкретної системи СУБД. Ця модель зазвичай створюється адміністратором баз даних і розробниками. Метою є реальна реалізація бази даних.
3) Поясніть факт і таблицю фактів
Факт являє собою кількісні дані. Наприклад, чиста сума до сплати. Таблиця фактів містить числові дані, а також зовнішні ключі з розмірних таблиць.
4) Перелічіть різні схеми проектування в моделюванні даних
Існує два різних типи схем схем моделювання даних: 1) схема у формі зірки та 2) схема у формі сніжинки
5) Коли слід розглядати денормалізацію?
Денормалізація використовується, коли під час отримання даних багато задіяно таблицю. Використовується для побудови сховища даних.
6) Поясніть розмір і атрибут
Розміри представляють якісні дані. Наприклад, продукт, клас, план тощо. Таблиця розмірів має текстові або описові атрибути. Наприклад, категорія продукту та назва продукту є двома атрибутами таблиці розмірів продукту.
7) Що таке факт менше факту?
Факти без фактів – це таблиця, у якій немає вимірювання фактів. Він містить лише ключі розмірів.
8) Що таке аналітика в пам’яті?
Аналітика в пам’яті – це процес кешування бази даних в оперативній пам’яті.
9) Яка різниця між OLTP і OLAP?
Нижче наведено різниця між OLAP і OLTP:
OLTP | OLAP |
---|---|
OLTP — це онлайнова транзакційна система. | OLAP – це онлайновий процес аналізу та отримання даних. |
Характеризується великою кількістю коротких онлайн-транзакцій. | Характеризується великим обсягом даних. |
OLTP використовує традиційну СУБД. | OLAP використовує сховище даних. |
Таблиці в базі даних OLTP нормалізовано. | Таблиці в OLAP не нормалізуються. |
Його час відгуку становить мілісекунди. | Його час відгуку становить від секунд до хвилин. |
OLTP призначений для бізнес-операцій у реальному часі. | OLAP призначений для аналізу показників бізнесу за категоріями та атрибутами. |
10) Що таке стіл?
Сукупність рядків і стовпців називається таблицею. Кожен стовпець має тип даних. Таблиця містить пов’язані дані в табличному форматі.
11) Що таке колонка?
Стовпець або поле – це вертикальне розташування даних, які містять пов’язану інформацію.
12) Визначте розрідженість даних
Розрідженість даних — це термін, який використовується для визначення кількості даних для сутності/виміру моделі.
13) Що таке складений первинний ключ?
Складений первинний ключ відноситься до випадку, коли більше одного стовпця таблиці використовується як частина первинного ключа.
14) Що таке первинний ключ?
Основний ключ це стовпець або група стовпців, які неоднаково ідентифікують кожен рядок у таблиці. Значення первинного ключа не має бути нульовим. Кожна таблиця повинна містити один первинний ключ.
15) Поясніть зовнішній ключ
Зовнішній ключ це група атрибутів, яка використовується для зв'язку батьківської та дочірньої таблиць. Значення стовпця зовнішнього ключа, яке доступне в дочірній таблиці, відноситься до значення первинного ключа в батьківській таблиці.
16) Що таке метадані?
Метадані описують дані про дані. Він показує, який тип даних фактично зберігається в системі баз даних.
17) Що таке вітрина даних?
A март даних це стисла версія сховища даних і призначена для використання певним відділом, підрозділом або групою користувачів в організації. Наприклад, маркетинг, продажі, кадри чи фінанси.
18) Що таке OLTP?
Онлайн-обробка транзакцій, коротко відома як OLTP, підтримує транзакційно-орієнтовану програму в 3-рівневій архітектурі. OLTP адмініструє повсякденні транзакції компанії чи організації.
19) Які приклади системи OLTP?
Прикладом системи OLTP є:
- Надсилання повідомлення
- Додайте книгу в кошик
- Онлайн бронювання авіаквитків
- Інтернет-банкінг
- Замовлення вступу
20) Що таке контрольне обмеження?
Обмеження перевірки використовується для перевірки діапазону значень у стовпці.
21) Перелічіть види нормалізації?
Типи нормалізацій: 1) перша нормальна форма, 2) друга нормальна форма, 3) третя нормальна форма, 4) четверта форма Бойса-Кодда та 5) п’ята нормальна форма.
22) Що таке інженерія передових даних?
Форвардна інженерія — це технічний термін, який використовується для опису процесу автоматичного перетворення логічної моделі у фізичний інструмент.
23) Що таке PDAP?
Це куб даних, який зберігає дані як зведення. Це допомагає користувачеві швидко аналізувати дані. Дані в PDAP зберігаються таким чином, що можна легко створювати звіти.
24) Поясніть дизайн бази даних схеми снігових пластівців
Схема сніжинки — це розташування таблиці розмірності та таблиці фактів. Як правило, обидві таблиці далі розбиваються на інші таблиці розмірів.
25) Поясніть послугу аналізу
Служба аналізу надає комбіноване представлення даних, які використовуються в інтелектуальному аналізі даних або OLAP.
26) Що таке алгоритм кластеризації послідовностей?
Алгоритм кластеризації послідовностей збирає шляхи, які схожі або пов’язані один з одним, і послідовності даних, що мають події.
27) Що таке дискретні та безперервні дані?
Дискретні дані - це кінцеві дані або визначені дані. Наприклад, стать, номери телефонів. Безперервні дані – це дані, які змінюються безперервно та впорядковано. Наприклад, вік.
28) Що таке алгоритм часових рядів?
Алгоритм часових рядів – це метод прогнозування безперервних значень даних у табл. Наприклад, продуктивність одного співробітника може прогнозувати прибуток або вплив.
29) Що таке бізнес-аналітика?
BI (Business Intelligence) — це набір процесів, архітектур і технологій, які перетворюють необроблені дані на значущу інформацію, що сприяє прибутковій бізнес-діяльності. Це набір програмного забезпечення та послуг для перетворення даних у практичні дані та знання.
30) Що таке розрядний індекс?
Растрові індекси — це особливий тип індексів бази даних, який використовує растрові зображення (масиви бітів) для відповідей на запити шляхом виконання побітових операцій.
Моделювання даних Інтерв'ю Питання та відповіді для досвідчених
31) Детально поясніть сховище даних
Сховище даних – це процес збору та керування даними з різноманітних джерел. Він надає значущу інформацію про бізнес-підприємство. Сховища даних зазвичай використовуються для підключення та аналізу даних із різнорідних джерел. Це ядро системи BI, яка створена для аналізу даних і звітності.
32) Що таке розмір сміття?
Сміттєвий вимір об’єднує дві або більше пов’язаних потужностей в один вимір. Зазвичай це булеві значення або значення прапорів.
33) Поясніть схему даних
Схема даних — це діаграматичне представлення, яке ілюструє зв’язки та структури даних.
34) Поясніть частоту збору даних
Частота збору даних – це швидкість збору даних. Він також проходить різні стадії. Ці етапи: 1) вилучення з різних джерел, 3) перетворення, 4) очищення та 5) зберігання.
35) Що таке потужність бази даних?
Кардинальність — це числовий атрибут зв’язку між двома сутностями або наборами сутностей.
36) Які різні типи кардинальних відносин?
Різні типи ключових кардинальних відносин:
- Відносини один-на-один
- Відносини «один до багатьох».
- Відносини «багато до одного».
- Відносини «багато до багатьох».
37) Визначте критичний фактор успіху та перерахуйте його чотири типи
Критичний фактор успіху - це сприятливий результат будь-якої діяльності, необхідної для досягнення організацією своєї мети.
Чотири типи критичного фактора успіху:
- Промислові CSFs
- CSF стратегії
- CSF навколишнього середовища
- Скроневі ліквори
38) Що таке аналіз даних?
Інтелектуальний аналіз даних — це багатопрофільна навичка, яка використовує машинне навчання, статистику, штучний інтелект і технології баз даних. Це все про виявлення не підозрюваних/раніше невідомих зв’язків між даними.
39) Яка різниця між схемою «Зірка» та схемою «Сніжинка»?
Нижче наведено ключову відмінність між Схема зірки проти схеми сніжинки:
Схема зірок | Схема сніжинки |
---|---|
Ієрархії розмірів зберігаються в таблиці розмірів. | Ієрархії розділені на окремі таблиці. |
Він містить таблицю фактів, оточену таблицями розмірів. | Одна таблиця фактів, оточена таблицею розмірності, яка, у свою чергу, оточена таблицею розмірності |
У зіркоподібній схемі лише одне об’єднання створює зв’язок між таблицею фактів і будь-якими таблицями розмірів. | Схема сніжинки потребує багатьох об’єднань для отримання даних. |
Він має простий дизайн бази даних | Він має складний дизайн бази даних |
Денормалізована структура даних і запит також працюють швидше. | Нормована структура даних. |
Високий рівень резервування даних | Дуже низький рівень резервування даних |
Пропонує високопродуктивні запити за допомогою оптимізації запитів Star Join. Таблиці можуть бути з’єднані кількома вимірами. | Схема Snow Flake представлена централізованою таблицею фактів, яка навряд чи пов’язана з кількома вимірами. |
40) Що таке ідентифікаційний зв'язок?
Ідентифікація зв’язків сутностей у СУБД використовується для ідентифікації зв’язків між двома сутностями: 1) сильною сутністю та 2) слабкою сутністю.
41) Що таке саморекурсивне відношення?
Рекурсивне відношення — це окремий стовпець у таблиці, який підключено до первинного ключа тієї ж таблиці.
42) Поясніть реляційне моделювання даних
Реляційне моделювання даних - це представлення об'єктів у реляційній базі даних, яка зазвичай нормалізована.
43) Що таке аналітика прогнозного моделювання?
Процес перевірки або тестування моделі, яка використовувалася б для прогнозування результатів тестування та перевірки. Його можна використовувати для машинного навчання, штучного інтелекту, а також для статистики.
44) Яка різниця між логічною моделлю даних і фізичною моделлю даних?
Логічна модель даних | Фізична модель даних |
---|---|
Логічна модель даних може логічно проектувати вимоги бізнесу. | Фізична модель даних надає інформацію про цільове джерело бази даних і його властивості. |
Він відповідає за фактичну реалізацію даних, які зберігаються в базі даних. | Фізична модель даних допомагає створити нову модель бази даних із існуючої та застосувати обмеження посилальної цілісності. |
Він містить сутність, атрибути первинного ключа, ключі інверсії, альтернативний ключ, правило, діловий зв’язок, визначення тощо. | Фізична модель даних містить таблицю, ключові обмеження, унікальний ключ, стовпці, зовнішній ключ, індекси, значення за замовчуванням тощо. |
45) Які бувають різні типи обмежень?
Іншим типом обмеження може бути унікальність, нульові значення, зовнішні ключі, складений ключ або обмеження перевірки тощо.
46) Що таке інструмент моделювання даних?
Інструмент моделювання даних це програмне забезпечення, яке допомагає створювати потік даних і зв’язок між даними. Прикладами таких інструментів є Borland Together, Altova Database Spy, casewise, Case Studio 2 тощо.
47) Що таке ієрархічна СУБД?
В ієрархічній базі даних дані моделі організовані у вигляді дерева. Дані зберігаються в ієрархічному форматі. Дані представлені за допомогою зв’язку «батько-нащадок». В ієрархічній СУБД батько може мати багато дітей, діти мають лише одного батька.
48) Які недоліки ієрархічної моделі даних?
Недоліки ієрархічної моделі даних:
- Він не є гнучким, оскільки потрібен час, щоб адаптуватися до мінливих потреб бізнесу.
- Структура ставить проблему міжвідомчої комунікації, вертикальної комунікації, а також міжвідомчої комунікації.
- Ієрархічна модель даних може створити проблеми роз'єднаності.
49) Поясніть процесний підхід моделювання даних
Підхід, керований процесом, який використовується в моделюванні даних, слідує покроковому методу взаємозв’язку між моделлю сутності-зв’язку та організаційним процесом.
50) Які переваги використання моделювання даних?
Переваги використання моделювання даних у сховищах даних:
- Це допомагає вам керувати бізнес-даними, нормалізуючи їх і визначаючи атрибути.
- Моделювання даних об’єднує дані різних систем для зменшення надмірності даних.
- Це дозволяє створити ефективний дизайн бази даних.
- Моделювання даних допомагає організаційному відділу працювати як команда.
- Це полегшує доступ до даних з легкістю.
51) Які недоліки використання моделювання даних?
Недоліки використання моделювання даних:
- Він має меншу структурну незалежність
- Це може ускладнити систему.
52) Що таке індекс?
Індекс використовується для стовпця або групи стовпців для швидкого отримання даних.
53) Які характеристики логічної моделі даних?
Характеристиками логічної моделі даних є:
- Описує потреби в даних для окремого проекту, але може інтегруватися з іншими логічними моделями даних залежно від обсягу проекту.
- Спроектовано та розроблено незалежно від СУБД.
- Атрибути даних матимуть типи даних із точною точністю та довжиною.
- Процеси нормалізації моделі, які зазвичай застосовуються до 3NF.
54) Які характеристики фізичної моделі даних?
Характеристики фізичної моделі даних:
- Фізична модель даних описує потребу в даних для окремого проекту чи програми. Його можна інтегрувати з іншими фізичними моделями даних залежно від обсягу проекту.
- Модель даних містить зв’язки між таблицями, які стосуються кардинальності та нульових зв’язків.
- Розроблено для конкретної версії СУБД, місця розташування, зберігання даних або технології, яка буде використовуватися в проекті.
- Стовпці повинні мати точні типи даних, призначену довжину та значення за замовчуванням.
- Визначаються первинні та зовнішні ключі, перегляди, індекси, профілі доступу та авторизації тощо.
55) Які є два типи методів моделювання даних?
Два типи методів моделювання даних: 1) модель сутності-зв’язку (ER) і 2) UML (Уніфікована мова моделювання).
56) Що таке UML?
UML (Unified Modeling Language) — мова моделювання загального призначення для розробки баз даних у галузі програмної інженерії. Основним наміром є надання узагальненого способу візуалізації дизайну системи.
57) Поясніть об'єктно-орієнтовану модель бази даних
Об'єктно-орієнтована модель бази даних - це сукупність об'єктів. Ці об’єкти можуть мати асоційовані функції, а також методи.
58) Що таке модель мережі?
Це модель, яка побудована на ієрархічній моделі. Він дозволяє пов’язувати записи кількома зв’язками, що вказує на наявність кількох записів. Можна створити набір батьківських і дочірніх записів. Кожен запис може належати до кількох наборів, які дозволяють виконувати складні зв’язки між таблицями.
59) Що таке хешування?
Хешування – це техніка, яка використовується для пошуку всіх значень індексу та отримання бажаних даних. Це допомагає розрахувати пряме розташування даних, які записані на диск без використання структури індексу.
60) Що таке бізнес або природні ключі?
бізнес-ключі або природні ключі — це поле, яке унікально ідентифікує сутність. Наприклад, ідентифікатор клієнта, номер співробітника, електронна адреса тощо.
61) Що таке складений ключ?
Якщо для представлення ключа використовується більше ніж одне поле, він називається складеним ключем.
62) Що таке перша нормальна форма?
Перша нормальна форма або 1NF — це властивість відношення, доступна в системі керування реляційною базою даних. Будь-яке відношення називається першою нормальною формою, якщо домен кожного атрибута містить значення, які є атомарними. Він містить одне значення з цього домену.
63) Яка різниця між первинним ключем і зовнішнім ключем?
Основний ключ | Зовнішній ключ |
---|---|
Первинний ключ допомагає вам однозначно ідентифікувати запис у таблиці. | Зовнішній ключ — це поле в таблиці, яке є первинним ключем іншої таблиці. |
Первинний ключ ніколи не приймає нульових значень. | Зовнішній ключ може приймати кілька нульових значень. |
Первинний ключ — це кластерний індекс, а дані в таблиці СУБД фізично організовані в послідовності кластерного індексу. | Зовнішній ключ не може автоматично створити індекс, кластеризований чи некластеризований. Однак ви можете вручну створити індекс зовнішнього ключа. |
Ви можете мати єдиний первинний ключ у таблиці. | Ви можете мати кілька зовнішніх ключів у таблиці. |
64) Які вимоги до другої нормальної форми?
Вимоги другої нормальної форми:
- Він повинен бути в початковій нормальній формі.
- Він не містить жодних непростих атрибутів, які функціонально залежать від будь-якої підмножини ключа-кандидата зв’язку таблиці.
65) Які правила для третьої нормальної форми?
Правила для третіх нормальних форм:
- Він має бути у другій нормальній формі
- Він не має транзитивних функціональних залежностей.
66) Яке значення має використання ключів?
- Ключі допомагають ідентифікувати будь-який рядок даних у таблиці. У реальній програмі таблиця може містити тисячі записів.
- Ключі гарантують, що ви можете однозначно ідентифікувати запис таблиці, незважаючи на ці проблеми.
- Дозволяє встановити зв’язок між таблицями та визначити зв’язок між ними
- Допомогти вам зміцнити ідентичність і цілісність у стосунках.
67) Що таке сурогатний ключ?
Штучний ключ, призначений для однозначної ідентифікації кожного запису, називається сурогатним ключем. Ці типи ключів унікальні, оскільки вони створюються, коли у вас немає природного первинного ключа. Вони не надають жодного значення даним у таблиці. Сурогатний ключ зазвичай є цілим числом.
68) Детально поясніть альтернативний ключ
Альтернативний ключ — це стовпець або група стовпців у таблиці, які однозначно ідентифікують кожен рядок у цій таблиці. Таблиця може мати кілька варіантів для первинного ключа, але лише один може бути встановлений як первинний ключ. Усі ключі, які не є первинними ключами, називаються альтернативними ключами.
69) Що таке четверта нормальна форма в СУБД?
Четверта нормальна форма — це рівень нормалізації бази даних, де не повинно бути нетривіальної залежності, окрім ключа кандидата.
70) Що таке система управління базами даних?
Система управління базами даних або СУБД — це програмне забезпечення для зберігання та отримання даних користувача. Він складається з групи програм, які маніпулюють базою даних.
71) Що таке правило п'ятої нормальної форми?
Стіл знаходиться в 5th нормальна форма, лише якщо вона в 4th нормальної форми, і його не можна розкласти на будь-яку кількість менших таблиць без втрати даних.
72) Що таке нормалізація?
Нормалізація це метод проектування бази даних, який організовує таблиці таким чином, щоб зменшити надмірність і залежність даних. Він розділяє великі таблиці на менші та зв’язує їх за допомогою зв’язків.
73) Поясніть характеристики системи управління базами даних
- Забезпечує безпеку та усуває надмірність
- Самоописова природа системи баз даних
- Ізоляція між програмами та абстракцією даних
- Підтримка кількох переглядів даних.
- Обмін даними та обробка багатокористувацьких транзакцій
- СУБД дозволяє сутностям і відносинам між ними формувати таблиці.
- Він відповідає концепції ACID (Atomicity, послідовність, ізоляція та довговічність).
- СУБД підтримує багатокористувацьке середовище, яке дозволяє користувачам паралельно отримувати доступ, отримувати доступ і маніпулювати даними.
74) Перелічіть популярне програмне забезпечення СУБД
популярний Програмне забезпечення СУБД це:
- MySQL
- Microsoft Тут Ви
- Oracle
- PostgreSQL
- dbase
- FoxPro
- SQLite
- IBM DB2
- Microsoft SQL Server.
75) Поясніть поняття RDBMS
Система управління реляційними базами даних це програмне забезпечення, яке використовується для зберігання даних у вигляді таблиць. У такій системі дані керуються та зберігаються в рядках і стовпцях, які називаються кортежами й атрибутами. RDBMS є потужною системою керування даними, яка широко використовується в усьому світі.
76) Які переваги моделі даних?
Перевагами моделі даних є:
- Основна мета розробки моделі даних — переконатися, що об’єкти даних, запропоновані функціональною командою, представлені точно.
- Модель даних має бути достатньо детальною, щоб використовувати її для створення фізичної бази даних.
- Інформацію в моделі даних можна використовувати для визначення зв’язку між таблицями, первинними та зовнішніми ключами та збереженими процедурами.
- Модель даних допомагає компаніям спілкуватися всередині та між організаціями.
- Модель даних допомагає документувати відображення даних у процесі ETL
- Допоможіть розпізнати правильні джерела даних для заповнення моделі
77) Які недоліки моделі даних?
Недоліками моделі даних є:
- Щоб розробити модель даних, необхідно знати фізичні характеристики збережених даних.
- Це навігаційна система, яка виробляє комплексну розробку додатків, управління. Отже, це вимагає знання біографічної правди.
- Навіть менші зміни в структурі вимагають модифікації всієї програми.
- У СУБД немає набору мов маніпулювання даними.
78) Поясніть різні типи таблиць фактів
Існує три типи таблиць фактів:
- Добавка: Це міра, яка додається до будь-якого виміру.
- Без добавок: Це показник, який не можна додати до жодного виміру.
- Напівдобавка: Це показник, який можна додати до кількох вимірів.
79) Що таке зведена таблиця?
Зведена таблиця містить зведені дані, які можна обчислити за допомогою таких функцій, як: 1) середнє значення 2) MAX, 3) підрахунок, 4) SUM, 5) SUM і 6) MIN.
80) Що таке підтверджений розмір?
Узгоджений розмір — це розмір, розроблений таким чином, що його можна використовувати в багатьох таблицях фактів у різних областях сховища даних.
81) Перелічіть типи ієрархій у моделюванні даних
Існує два типи ієрархій: 1) ієрархії на основі рівня та 2) ієрархії «батьки-дочірні».
82) Яка різниця між вітриною даних і сховищем даних?
Ось головне різниця між Data Mart і Data Warehouse:
Вітрина даних | Інформаційне сховище |
---|---|
Data mart фокусується на одній предметній сфері бізнесу. | Сховище даних зосереджено на кількох сферах бізнесу. |
Використовується для прийняття тактичних рішень для розвитку бізнесу. | Це допомагає власникам бізнесу прийняти стратегічне рішення |
Data mart дотримується моделі «знизу вгору». | Сховище даних працює за моделлю зверху вниз |
Джерело даних походить з одного джерела даних | Джерело даних походить із кількох різнорідних джерел даних. |
83) Що таке XMLA?
XMLA – це аналіз XML, який вважається стандартом для доступу до даних Онлайн аналітична обробка (OLAP).
84) Поясніть розмір сміття
Сміттєвий розмір допомагає зберігати дані. Він використовується, коли дані не можна зберігати в схемі.
85) Поясніть ланцюгову реплікацію даних
Ситуація, коли вторинний вузол вибирає ціль за допомогою часу ping або коли найближчий вузол є вторинним, це називається зв’язаною реплікацією даних.
86) Поясніть віртуальне сховище даних
Віртуальне сховище даних надає загальний перегляд заповнених даних. Віртуальне сховище даних не має історичних даних. Вона розглядається як логічна модель даних, що має метадані.
87) Поясніть знімок сховища даних
Знімок — це повна візуалізація даних у момент початку процесу вилучення даних.
88) Що таке двонаправлений витяг?
Здатність системи витягувати, очищати та передавати дані у двох напрямках називається спрямованим вилученням.
Ці запитання для співбесіди також допоможуть вам у життєдіяльності (усному)