88 лучших вопросов и ответов на собеседовании по моделированию данных (2025 г.)

Вот вопросы и ответы на собеседовании по моделированию данных для как новичков, так и опытных кандидатов, желающих получить работу своей мечты.

 

Вопросы и ответы на собеседовании по моделированию данных для первокурсников

1) Что такое моделирование данных?

Моделирование данных — это процесс создания модели данных для хранения в базе данных. Это концептуальное представление объектов данных, связь между различными объектами данных и правилами.


2) Объяснить различные типы моделей данных.

В основном существует три различных типа моделей данных:

Концептуальный: Концептуальная модель данных определяет, что должна содержать система. Эта модель обычно создается заинтересованными сторонами бизнеса и архитекторами данных. Цель состоит в том, чтобы организовать, определить область применения и определить бизнес-концепции и правила.

Логические: Определяет, как должна быть реализована система независимо от СУБД. Эту модель обычно создают архитекторы данных и бизнес-аналитики. Целью является разработка технической карты правил и структур данных.

Физические: Эта модель данных описывает, как система будет реализована с использованием конкретной системы СУБД. Эта модель обычно создается администратором базы данных и разработчиками. Целью является фактическая реализация базы данных.


3) Объясните факт и таблицу фактов.

Факт представляет собой количественные данные. Например, чистая сумма, подлежащая оплате. Таблица фактов содержит числовые данные, а также внешние ключи из таблиц измерений.


4) Перечислите различные схемы проектирования при моделировании данных.

Существует два разных типа схем моделирования данных: 1) схема «звезда» и 2) схема «снежинка».


5) Когда следует рассмотреть вопрос о денормализации?

Денормализация используется, когда таблица активно используется при получении данных. Он используется для создания хранилища данных.


6) Объясните размер и атрибут.

Размеры представляют собой качественные данные. Например, продукт, класс, план и т. д. Таблица измерений имеет текстовые или описательные атрибуты. Например, категория продукта и название продукта — это два атрибута таблицы аналитик продуктов.


7) Что является фактом меньше факта?

Факт без фактов — это таблица, не имеющая измерения фактов. Он содержит только ключи измерений.


8) Что такое аналитика в памяти?

Аналитика в памяти — это процесс кэширования базы данных в оперативной памяти.


9) В чем разница между OLTP и OLAP?

Ниже приведена разница между OLAP и OLTP:

OLTP OLAP
OLTP — это онлайн-транзакционная система. OLAP — это онлайн-процесс анализа и получения данных.
Для него характерно большое количество коротких онлайн-транзакций. Характеризуется большим объемом данных.
OLTP использует традиционные СУБД. OLAP использует хранилище данных.
Таблицы в базе данных OLTP нормализованы. Таблицы в OLAP не нормализованы.
Время его отклика составляет миллисекунду. Время отклика составляет от секунды до минуты.
OLTP предназначен для бизнес-операций в режиме реального времени. OLAP предназначен для анализа бизнес-показателей по категориям и атрибутам.

10) Что такое стол?

Совокупность строк и столбцов называется таблицей. Каждый столбец имеет тип данных. Таблица содержит связанные данные в табличном формате.


11) Что такое столбец?

Столбец или поле — это вертикальное расположение данных, содержащих связанную информацию.


12) Определите разреженность данных

Разреженность данных — это термин, используемый для обозначения объема данных для сущности/измерения модели.


13) Что такое составной первичный ключ?

Составной первичный ключ относится к случаю, когда в качестве части первичного ключа используется более одного столбца таблицы.


14) Что такое первичный ключ?

Основной ключ — это столбец или группа столбцов, которые по-разному идентифицируют каждую строку таблицы. Значение первичного ключа не должно быть нулевым. Каждая таблица должна содержать один первичный ключ.


15) Объясните внешний ключ

Внешний ключ — это группа атрибутов, которая используется для связи родительской и дочерней таблиц. Значение столбца внешнего ключа, доступного в дочерней таблице, относится к значению первичного ключа в родительской таблице.


16) Что такое метаданные?

Метаданные описывают данные о данных. Он показывает, какой тип данных на самом деле хранится в системе баз данных.


17) Что такое витрина данных?

A витрина данных представляет собой сокращенную версию хранилища данных, предназначенную для использования определенным отделом, подразделением или группой пользователей в организации. Например, маркетинг, продажи, HR или финансы.


18) Что такое OLTP?

Обработка онлайн-транзакций, вскоре известная как OLTP, поддерживает транзакционно-ориентированные приложения в трехуровневой архитектуре. OLTP управляет повседневными транзакциями компании или организации.


19) Каковы примеры OLTP-системы?

Пример системы OLTP:

  • Отправка текстового сообщения
  • Добавить книгу в корзину
  • Онлайн бронирование авиабилетов
  • Онлайн банкинг
  • Порядок въезда

20) Что такое проверочное ограничение?

Ограничение проверки используется для проверки диапазона значений в столбце.


21) Перечислите виды нормализации?

Типы нормализации: 1) первая нормальная форма, 2) вторая нормальная форма, 3) третья нормальная форма, 4) четвертая нормальная форма Бойса-Кодда и 5) пятая нормальная форма.


22) Что такое форвардная инженерия данных?

Форвард-инжиниринг — это технический термин, используемый для описания процесса автоматического перевода логической модели в физическое орудие.


23) Что такое ПДАП?

Это куб данных, в котором данные хранятся в виде сводки. Это помогает пользователю быстро анализировать данные. Данные в PDAP хранятся таким образом, что можно легко составлять отчеты.


24) Объясните структуру базы данных схемы снежинок.

Схема «снежинка» представляет собой сочетание таблицы измерений и таблицы фактов. Обычно обе таблицы разбиваются на несколько таблиц измерений.


25) Объяснить сервис анализа

Служба анализа предоставляет комбинированное представление данных, которое используется в интеллектуальном анализе данных или OLAP.


26) Что такое алгоритм кластеризации последовательностей?

Алгоритм кластеризации последовательностей собирает пути, которые похожи или связаны друг с другом, а также последовательности данных, содержащие события.


27) Что такое дискретные и непрерывные данные?

Дискретные данные — это конечные данные или определенные данные. Например, пол, номера телефонов. Непрерывные данные — это данные, которые изменяются непрерывно и упорядоченно. Например, возраст.


28) Каков алгоритм временных рядов?

Алгоритм временных рядов — это метод прогнозирования непрерывных значений данных в таблице. Например, производительность одного сотрудника может спрогнозировать прибыль или влияние.


29) Что такое бизнес-аналитика?

BI (Бизнес-аналитика) — это набор процессов, архитектур и технологий, которые преобразуют необработанные данные в значимую информацию, способствующую прибыльным бизнес-действиям. Это набор программного обеспечения и услуг для преобразования данных в действенную информацию и знания.


30) Что такое битовый индекс?

Битовые индексы — это особый тип индекса базы данных, который использует растровые изображения (битовые массивы) для ответа на запросы путем выполнения побитовых операций.


Вопросы и ответы на собеседовании по моделированию данных для опытных

31) Подробно объясните хранилище данных.

Хранилище данных — это процесс сбора и управления данными из различных источников. Он предоставляет содержательную информацию о бизнес-предприятиях. Хранилища данных обычно используются для соединения и анализа данных из разнородных источников. Это ядро ​​системы BI, созданное для анализа данных и составления отчетов.


32) Что такое мусорное измерение?

Нежелательное измерение объединяет две или более связанных кардинальности в одно измерение. Обычно это логические значения или значения флагов.


33) Объяснить схему данных

Схема данных — это схематическое представление, которое иллюстрирует взаимосвязи и структуры данных.


34) Объясните частоту сбора данных.

Частота сбора данных — это скорость сбора данных. Оно также проходит различные стадии. Этими этапами являются: 1) извлечение из различных источников, 3) преобразование, 4) очищение и 5) хранение.


35) Что такое мощность базы данных?

Кардинальность — это числовой атрибут связи между двумя сущностями или наборами сущностей.


36) Каковы различные типы кардинальных отношений?

Различные типы ключевых кардинальных отношений:

  • Отношения «один к одному»
  • Отношения «один ко многим»
  • Отношения «многие к одному»
  • Отношения "многие ко многим"

37) Определите критический фактор успеха и перечислите его четыре типа.

Критический фактор успеха – это благоприятный результат любой деятельности, необходимой организации для достижения своей цели.

Четыре типа критических факторов успеха:

  • Отраслевые CSF
  • Стратегические CSF
  • Экологические CSF
  • Временные CSF

38) Что такое интеллектуальный анализ данных?

Интеллектуальный анализ данных — это междисциплинарный навык, в котором используются машинное обучение, статистика, искусственный интеллект и технологии баз данных. Все дело в обнаружении неожиданных/ранее неизвестных взаимосвязей между данными.


39) В чем разница между схемой «Звезда» и схемой «Снежинка»?

Ниже приводится ключевое различие между Схема «Звезда» против схемы «Снежинка»:

Схема звезды Схема снежинки
Иерархии размеров хранятся в таблице размеров. Иерархии разделены на отдельные таблицы.
Он содержит таблицу фактов, окруженную таблицами измерений. Одна таблица фактов, окруженная таблицей измерений, которая, в свою очередь, окружена таблицей измерений.
В звездообразной схеме только одно соединение создает связь между таблицей фактов и любыми таблицами измерений. Схема «снежинка» требует множества соединений для получения данных.
Он имеет простой дизайн базы данных Он имеет сложную структуру базы данных.
Денормализованная структура данных и запросы также выполняются быстрее. Нормализованная структура данных.
Высокий уровень избыточности данных Очень низкий уровень избыточности данных
Предлагает более эффективные запросы с использованием оптимизации запросов Star Join. Таблицы могут быть связаны с несколькими измерениями. Схема «Снежинка» представлена ​​централизованной таблицей фактов, которая вряд ли связана с несколькими измерениями.

40) Что такое идентифицирующее родство?

Идентификация связей сущностей в СУБД используется для выявления связи между двумя сущностями: 1) сильной сущностью и 2) слабой сущностью.


41) Что такое саморекурсивные отношения?

Рекурсивная связь — это отдельный столбец в таблице, связанный с первичным ключом той же таблицы.


42) Объясните моделирование реляционных данных.

Реляционное моделирование данных — это представление объектов в реляционной базе данных, которое обычно нормализуется.


43) Что такое аналитика прогнозного моделирования?

Процесс проверки или тестирования модели, которая будет использоваться для прогнозирования результатов тестирования и проверки. Его можно использовать для машинного обучения, искусственного интеллекта, а также статистики.


44) В чем разница между логической моделью данных и физической моделью данных?

Логическая модель данных Физическая модель данных
Логическая модель данных может логически сформулировать требования бизнеса. Физическая модель данных предоставляет информацию об источнике целевой базы данных и ее свойствах.
Он отвечает за фактическую реализацию данных, хранящихся в базе данных. Физическая модель данных помогает создать новую модель базы данных на основе существующей и применить ограничение ссылочной целостности.
Он содержит сущность, атрибуты первичного ключа, ключи инверсии, альтернативный ключ, правило, деловое отношение, определение и т. д. Физическая модель данных содержит таблицу, ключевые ограничения, уникальный ключ, столбцы, внешний ключ, индексы, значения по умолчанию и т. д.

45) Каковы различные типы ограничений?

Другой тип ограничения может быть уникальным, нулевыми значениями, внешними ключами, составным ключом или проверочным ограничением и т. д.


46) Что такое инструмент моделирования данных?

Инструмент моделирования данных это программное обеспечение, которое помогает создавать поток данных и связь между данными. Примерами таких инструментов являются Borland Together, Altova Database Spy, Case Studio 2 и т. д.


47) Что такое иерархическая СУБД?

В иерархической базе данных данные модели организованы в виде древовидной структуры. Данные хранятся в иерархическом формате. Данные представлены с использованием отношений «родитель-потомок». В иерархической СУБД у родителя может быть много дочерних элементов, у дочерних элементов только один родитель.


48) Каковы недостатки иерархической модели данных?

Недостатками иерархической модели данных являются:

  • Он не является гибким, поскольку требуется время, чтобы адаптироваться к меняющимся потребностям бизнеса.
  • Структура ставит вопрос о межведомственной коммуникации, вертикальной коммуникации, а также межведомственной коммуникации.
  • Иерархическая модель данных может создать проблемы разобщенности.

49) Объясните процессно-ориентированный подход к моделированию данных.

Процессно-ориентированный подход, используемый при моделировании данных, следует пошаговому методу взаимосвязи между моделью сущность-связь и организационным процессом.


50) Каковы преимущества использования моделирования данных?

Преимущества использования моделирования данных в хранилищах данных:

  • Он помогает вам управлять бизнес-данными, нормализуя их и определяя их атрибуты.
  • Моделирование данных объединяет данные различных систем для уменьшения избыточности данных.
  • Это позволяет создать эффективный дизайн базы данных.
  • Моделирование данных помогает отделу организации работать как одна команда.
  • Это облегчает доступ к данным.

51) Каковы недостатки использования моделирования данных?

Недостатками использования моделирования данных являются:

  • У него меньше структурной независимости.
  • Это может усложнить систему.

52) Что такое индекс?

Индекс используется для столбца или группы столбцов для быстрого получения данных.


53) Каковы характеристики логической модели данных?

Характеристики логической модели данных:

  • Описывает потребности в данных для одного проекта, но может интегрироваться с другими логическими моделями данных в зависимости от объема проекта.
  • Разработан и разработан независимо от СУБД.
  • Атрибуты данных будут иметь типы данных с точной точностью и длиной.
  • Процессы нормализации модели, которые обычно применяются до 3NF.

54) Каковы характеристики физической модели данных?

Характеристики физической модели данных:

  • Модель физических данных описывает потребность в данных для одного проекта или приложения. Его можно интегрировать с другими моделями физических данных в зависимости от объема проекта.
  • Модель данных содержит связи между таблицами, которые определяют количество элементов и возможность обнуления отношений.
  • Разрабатывается для конкретной версии СУБД, местоположения, хранилища данных или технологии, которая будет использоваться в проекте.
  • Столбцы должны иметь точные типы данных, назначенную длину и значения по умолчанию.
  • Определяются первичные и внешние ключи, представления, индексы, профили доступа, авторизации и т. д.

55) Каковы два типа методов моделирования данных?

Два типа методов моделирования данных: 1) модель «сущность-связь» (ER) и 2) UML (Единый язык моделирования).


56) Что такое UML?

UML (Unified Modeling Language) — универсальный язык моделирования баз данных в области разработки программного обеспечения. Основная цель — предоставить обобщенный способ визуализации проектирования системы.


57) Объяснить объектно-ориентированную модель базы данных.

Объектно-ориентированная модель базы данных представляет собой набор объектов. Эти объекты могут иметь связанные функции, а также методы.


58) Что такое сетевая модель?

Это модель, построенная на иерархической модели. Он позволяет связывать записи более чем одним отношением, что указывает на наличие нескольких записей. Можно создать набор родительских и дочерних записей. Каждая запись может принадлежать нескольким наборам, что позволяет выполнять сложные связи между таблицами.


59) Что такое хеширование?

Хеширование — это метод, который используется для поиска всех значений индекса и получения нужных данных. Это помогает вычислить непосредственное расположение данных, которые записаны на диске, без использования структуры индекса.


60) Что такое деловые или естественные ключи?

Бизнес или естественные ключи — это поле, которое однозначно идентифицирует объект. Например, идентификатор клиента, номер сотрудника, адрес электронной почты и т. д.


61) Что такое составной ключ?

Если для представления ключа используется более одного поля, его называют составным ключом.


62) Что такое первая нормальная форма?

Первая нормальная форма или 1NF — это свойство отношения, доступное в системе управления реляционной базой данных. Любое отношение называется первой нормальной формой, если область определения каждого атрибута содержит атомарные значения. Он содержит одно значение из этого домена.


63) В чем разница между первичным ключом и внешним ключом?

Основной ключ Внешний ключ
Первичный ключ помогает однозначно идентифицировать запись в таблице. Внешний ключ — это поле таблицы, которое является первичным ключом другой таблицы.
Первичный ключ никогда не принимает нулевые значения. Внешний ключ может принимать несколько нулевых значений.
Первичный ключ представляет собой кластерный индекс, а данные в таблице СУБД физически организованы в последовательности кластерного индекса. Внешний ключ не может автоматически создавать индекс, кластерный или некластеризованный. Однако вы можете вручную создать индекс по внешнему ключу.
В таблице может быть один первичный ключ. В таблице может быть несколько внешних ключей.

64) Каковы требования второй нормальной формы?

Требования второй нормальной формы:

  • Оно должно быть в первой нормальной форме.
  • Он не содержит каких-либо непростых атрибутов, которые функционально зависят от любого подмножества потенциального ключа табличного отношения.

65) Каковы правила третьей нормальной формы?

Правила для третьих нормальных форм:

  • Оно должно быть во второй нормальной форме.
  • Он не имеет транзитивных функциональных зависимостей.

66) В чем важность использования ключей?

  • Ключи помогают вам идентифицировать любую строку данных в таблице. В реальном приложении таблица может содержать тысячи записей.
  • Ключи гарантируют, что вы сможете однозначно идентифицировать запись таблицы, несмотря на эти проблемы.
  • Позволяет установить связь и определить связь между таблицами.
  • Поможет вам обеспечить идентичность и целостность в отношениях.

67) Что такое суррогатный ключ?

Искусственный ключ, предназначенный для уникальной идентификации каждой записи, называется суррогатным ключом. Эти типы ключей уникальны, поскольку они создаются, когда у вас нет естественного первичного ключа. Они не придают никакого значения данным таблицы. Суррогатный ключ обычно представляет собой целое число.


68) Подробно объясните альтернативный ключ.

Альтернативный ключ — это столбец или группа столбцов в таблице, который уникально идентифицирует каждую строку в этой таблице. Таблица может иметь несколько вариантов первичного ключа, но только один из них может быть установлен в качестве первичного ключа. Все ключи, которые не являются первичными, называются альтернативными ключами.


69) Что такое четвертая нормальная форма в СУБД?

Четвертая нормальная форма — это уровень нормализации базы данных, на котором не должно быть нетривиальных зависимостей, кроме ключа-кандидата.


70) Что такое система управления базами данных?

Система управления базами данных или СУБД — это программное обеспечение для хранения и извлечения пользовательских данных. Он состоит из группы программ, которые манипулируют базой данных.


71) Что такое правило пятой нормальной формы?

Стол находится в 5th нормальная форма, только если она находится в 4th в нормальной форме, и ее нельзя разложить на любое количество меньших таблиц без потери данных.


72) Что такое нормализация?

Нормализация — это метод проектирования базы данных, который организует таблицы таким образом, чтобы уменьшить избыточность и зависимость данных. Он делит большие таблицы на более мелкие и связывает их с помощью отношений.


73) Объясните характеристики системы управления базами данных.

  • Обеспечивает безопасность и устраняет избыточность
  • Самоописываемая природа системы баз данных
  • Изоляция между программами и абстракцией данных
  • Поддержка нескольких представлений данных.
  • Совместное использование данных и многопользовательская обработка транзакций
  • СУБД позволяет сущностям и отношениям между ними формировать таблицы.
  • Он следует концепции ACID (Atomледяность, согласованность, изоляция и долговечность).
  • СУБД поддерживает многопользовательскую среду, которая позволяет пользователям получать доступ к данным и манипулировать ими параллельно.

74) Перечислите популярные программы СУБД.

Популярное программное обеспечение СУБД это:

  • MySQL
  • Microsoft О компании
  • Oracle
  • PostgreSQL
  • база данных
  • FoxPro
  • SQLite
  • IBM DB2
  • Microsoft SQL Server.

75) Объясните концепцию СУБД.

Система управления реляционными базами данных это программное обеспечение, которое используется для хранения данных в виде таблиц. В системе такого типа данные управляются и хранятся в строках и столбцах, которые называются кортежами и атрибутами. СУБД — это мощная система управления данными, широко используемая во всем мире.


76) Каковы преимущества модели данных?

Преимущества модели данных:

  • Основная цель проектирования модели данных — обеспечить точное представление объектов данных, предлагаемых функциональной командой.
  • Модель данных должна быть достаточно подробной, чтобы ее можно было использовать для построения физической базы данных.
  • Информация в модели данных может использоваться для определения взаимосвязей между таблицами, первичными и внешними ключами и хранимыми процедурами.
  • Модель данных помогает предприятиям общаться внутри и между организациями.
  • Модель данных помогает документировать сопоставления данных в процессе ETL.
  • Помогите распознать правильные источники данных для заполнения модели.

77) Каковы недостатки модели данных?

Недостатками модели данных являются:

  • Чтобы разработать модель данных, необходимо знать физические характеристики хранимых данных.
  • Это навигационная система, производящая сложную разработку приложений, управление ими. Таким образом, требуется знание биографической правды.
  • Даже небольшие изменения в структуре требуют модификации всего приложения.
  • В СУБД отсутствует набор языков манипулирования данными.

78) Объясните различные типы таблиц фактов.

Существует три типа таблиц фактов:

  • Добавка: Это мера, которая добавляется к любому измерению.
  • Неаддитивные: Это мера, которую нельзя добавить ни к одному измерению.
  • Полудобавка: Это мера, которую можно добавить к нескольким измерениям.

79) Что такое сводная таблица?

Агрегированная таблица содержит агрегированные данные, которые можно рассчитать с помощью таких функций, как: 1) Среднее 2) МАКС, 3) Подсчет, 4) СУММА, 5) СУММ и 6) МИН.


80) Что такое подтвержденный размер?

Согласованное измерение — это измерение, спроектированное таким образом, чтобы его можно было использовать во многих таблицах фактов в различных областях хранилища данных.


81) Перечислите типы иерархий в моделировании данных.

Существует два типа иерархий: 1) иерархии на основе уровней и 2) иерархии «родитель-потомок».


82) В чем разница между витриной данных и хранилищем данных?

Вот основные разница между витриной данных и хранилищем данных:

Киоск данных Хранилище данных
Витрина данных ориентирована на одну предметную область бизнеса. Хранилище данных фокусируется на нескольких областях бизнеса.
Он используется для принятия тактических решений для роста бизнеса. Это помогает владельцам бизнеса принять стратегическое решение.
Витрина данных следует модели «снизу вверх». Хранилище данных построено по нисходящей модели.
Источник данных поступает из одного источника данных Источник данных поступает из более чем одного разнородного источника данных.

83) Что такое XMLA?

XMLA — это анализ XML, который считается стандартом для доступа к данным в Онлайн-аналитическая обработка (OLAP).


84) Объясните мусорное измерение

Нежелательное измерение помогает хранить данные. Он используется, когда данные не подходят для хранения в схеме.


85) Объясните цепочку репликации данных.

Ситуация, когда вторичный узел выбирает цель с использованием времени проверки связи или когда ближайший узел является вторичным, называется цепной репликацией данных.


86) Объясните виртуальное хранилище данных

Виртуальное хранилище данных дает коллективное представление готовых данных. Виртуальное хранилище данных не содержит исторических данных. Это рассматривается как логическая модель данных, имеющая метаданные.


87) Объясните снимок хранилища данных.

Снимок — это полная визуализация данных в момент начала процесса извлечения данных.


88) Что такое двунаправленная вытяжка?

Способность системы извлекать, очищать и передавать данные в двух направлениях называется направленным извлечением.

Эти вопросы для собеседования также помогут вам в устной речи.