Топ 88 въпроса и отговора за интервю за моделиране на данни (2024 г.)

Ето въпроси и отговори за интервю за моделиране на данни за по-свежи и опитни кандидати, за да получат мечтаната работа.

 

Въпроси и отговори за интервю за моделиране на данни за първокурсници

1) Какво е моделиране на данни?

Моделирането на данни е процес на създаване на модел за данните, които да се съхраняват в база данни. Това е концептуално представяне на обекти с данни, асоциация между различни обекти с данни и правила.


2) Обяснете различните видове модели на данни

Има основно три различни типа модели на данни:

Идеен: Концептуалният модел на данни определя какво трябва да съдържа системата. Този модел обикновено се създава от бизнес заинтересовани страни и архитекти на данни. Целта е да се организират, обхватят и дефинират бизнес концепции и правила.

Логично: Определя как системата трябва да бъде внедрена независимо от СУБД. Този модел обикновено се създава от архитекти на данни и бизнес анализатори. Целта е да се разработи техническа карта на правила и структури от данни.

Физически: Този модел на данни описва как системата ще бъде внедрена с помощта на конкретна СУБД система. Този модел обикновено се създава от DBA и разработчици. Целта е реалното внедряване на базата данни.


3) Обяснете факта и таблицата с фактите

Фактът представлява количествени данни. Например нетната дължима сума. Фактическата таблица съдържа числови данни, както и външни ключове от таблици с размери.


4) Избройте различни дизайнерски схеми в моделирането на данни

Има два различни типа схеми на схеми за моделиране на данни: 1) схема на звезда и 2) схема на снежинка


5) Кога трябва да обмислите денормализиране?

Денормализацията се използва, когато има голямо участие на таблицата при извличане на данни. Използва се за изграждане на хранилище за данни.


6) Обяснете измерението и атрибута

Размерите представляват качествени данни. Например продукт, клас, план и т.н. Таблица с размери има текстови или описателни атрибути. Например категорията на продукта и името на продукта са два атрибута на таблицата с размери на продукта.


7) Какво е фактът по-малко факт?

Факт по-малко факт е таблица без измерване на факти. Той съдържа само ключовете за размери.


8) Какво представлява анализът в паметта?

Анализът в паметта е процес на кеширане на базата данни в RAM.


9) Каква е разликата между OLTP и OLAP?

По-долу е разлика между OLAP и OLTP:

OLTP OLAP
OLTP е онлайн система за транзакции. OLAP е онлайн процес за анализ и извличане на данни.
Характеризира се с голям брой кратки онлайн транзакции. Характеризира се с голям обем данни.
OLTP използва традиционна СУБД. OLAP използва хранилище на данни.
Таблиците в базата данни OLTP са нормализирани. Таблиците в OLAP не са нормализирани.
Времето му за реакция е милисекунда. Времето му за реакция е от секунди до минути.
OLTP е предназначен за бизнес операции в реално време. OLAP е предназначен за анализ на бизнес мерки по категория и атрибути.

10) Какво е маса?

Колекцията от редове и колони се нарича таблица. Всяка колона има тип данни. Таблицата съдържа свързани данни в табличен формат.


11) Какво е колона?

Колона или поле е вертикално подреждане на данни, които съдържат свързана информация.


12) Дефинирайте рядкост на данните

Разрядността на данните е термин, използван за това колко данни имате за обект/измерение на модела.


13) Какво е съставен първичен ключ?

Съставният първичен ключ се отнася за случая, когато повече от една колона на таблицата се използва като част от първичен ключ.


14) Какво е първичен ключ?

Първичен ключ е колона или група от колони, които неравномерно идентифицират всеки ред в таблицата. Стойността на първичния ключ не трябва да е нула. Всяка таблица трябва да съдържа един първичен ключ.


15) Обяснете външния ключ

Външен ключ е група от атрибути, които се използват за свързване на родителска и дъщерна таблица. Стойността на колоната с външен ключ, която е налична в дъщерната таблица, се отнася до стойността на първичния ключ в родителската таблица.


16) Какво представляват метаданните?

Метаданните описват данните за данните. Той показва какъв тип данни всъщност се съхраняват в системата от бази данни.


17) Какво е data mart?

A данни март е съкратена версия на хранилище за данни и е проектирано за използване от конкретен отдел, звено или набор от потребители в организация. Например маркетингови продажби, човешки ресурси или финанси.


18) Какво е OLTP?

Онлайн обработка на транзакции, накратко известна като OLTP, поддържа ориентирано към транзакции приложение в 3-степенна архитектура. OLTP администрира ежедневните транзакции на компания или организация.


19) Какви са примерите за OLTP система?

Пример за OLTP система са:

  • Изпращане на текстово съобщение
  • Добавяне на книга към количката за пазаруване
  • Онлайн резервация на самолетен билет
  • Онлайн банкиране
  • Поръчка за запис

20) Какво е ограничение за проверка?

Ограничението за проверка се използва за проверка на диапазон от стойности в колона.


21) Избройте видовете нормализация?

Видовете нормализация са: 1) първа нормална форма, 2) втора нормална форма, 3) трета нормална форма, 4) четвърта Бойс-Код и 5) пета нормална форма.


22) Какво е инженерство на данни напред?

Предстоящото инженерство е технически термин, използван за описване на процеса на автоматично преобразуване на логически модел във физически инструмент.


23) Какво е PDAP?

Това е куб с данни, който съхранява данни като обобщение. Помага на потребителя да анализира данните бързо. Данните в PDAP се съхраняват по начин, по който докладването може да се извършва лесно.


24) Обяснете дизайна на базата данни със схема на снежинка

Схемата на снежинка е подреждане на таблица с размери и таблица с факти. Като цяло и двете таблици са допълнително разбити на повече таблици с размери.


25) Обяснете услугата за анализ

Услугата за анализ дава комбиниран изглед на данните, които се използват при извличане на данни или OLAP.


26) Какво представлява алгоритъмът за групиране на последователности?

Алгоритъмът за клъстериране на последователности събира пътища, които са подобни или свързани един с друг, и последователности от данни, имащи събития.


27) Какво представляват дискретни и непрекъснати данни?

Дискретните данни са крайни данни или дефинирани данни. Например пол, телефонни номера. Непрекъснатите данни са данни, които се променят непрекъснато и подредени. Например възраст.


28) Какъв е алгоритъмът за времеви редове?

Алгоритъмът за времеви редове е метод за прогнозиране на непрекъснати стойности на данните в табл. Например, представяне един служител може да прогнозира печалбата или влиянието.


29) Какво е Business Intelligence?

BI (Business Intelligence) е набор от процеси, архитектури и технологии, които преобразуват необработените данни в смислена информация, която стимулира печеливши бизнес действия. Това е пакет от софтуер и услуги за трансформиране на данни в приложима интелигентност и знания.


30) Какво е битово картографиран индекс?

Растерните индекси са специален тип индекс на база данни, който използва растерни изображения (битови масиви), за да отговаря на заявки чрез изпълнение на битови операции.


Въпроси и отговори за интервю за моделиране на данни за опитни

31) Обяснете подробно складирането на данни

Съхранението на данни е процес за събиране и управление на данни от различни източници. Той предоставя смислена информация за бизнеса. Складирането на данни обикновено се използва за свързване и анализ на данни от разнородни източници. Това е ядрото на BI системата, която е изградена за анализ на данни и отчитане.


32) Какво е измерение на боклука?

Нежеланото измерение комбинира две или повече свързани кардиналности в едно измерение. Обикновено са булеви или флагови стойности.


33) Обяснете схемата на данните

Схемата на данните е диаграмно представяне, което илюстрира връзките и структурите на данните.


34) Обяснете честотата на събиране на данни

Честотата на събиране на данни е скоростта на събиране на данните. Освен това преминава през различни етапи. Тези етапи са: 1) извличане от различни източници, 3) трансформиране, 4) почистване и 5) съхраняване.


35) Какво е кардиналност на базата данни?

Кардиналността е числов атрибут на връзката между два обекта или набори от обекти.


36) Какви са различните видове кардинални връзки?

Различни видове ключови кардинални взаимоотношения са:

  • Отношения едно към едно
  • Връзки „един към много“.
  • Връзки много към едно
  • Връзки много към много

37) Дефинирайте критичен фактор за успех и избройте неговите четири вида

Критичен фактор за успех е благоприятен резултат от всяка дейност, необходима на организацията, за да постигне целта си.

Четири вида критичен фактор за успех са:

  • Индустриални CSF
  • Стратегически CSFs
  • CSF от околната среда
  • Времеви CSF

38) Какво е извличане на данни?

Извличането на данни е мултидисциплинарно умение, което използва машинно обучение, статистика, AI и технология за бази данни. Всичко е свързано с откриването на неподозирани / неизвестни досега връзки между данните.


39) Каква е разликата между схемата звезда и схемата снежинка?

Следното е ключова разлика между Схема на звезда срещу схема на снежинка:

Звездна схема Схема на снежинка
Йерархиите за размерите се съхраняват в таблицата с размери. Йерархиите са разделени на отделни таблици.
Той съдържа таблица с факти, заобиколена от таблици с размери. Една таблица с факти, заобиколена от таблица с размери, която на свой ред е заобиколена от таблица с размери
В звездообразна схема само едно съединение създава връзката между таблицата на фактите и всички таблици с измерения. Схемата на снежинка изисква много съединения за извличане на данните.
Има прост дизайн на база данни Има сложен дизайн на база данни
Денормализираната структура на данните и заявката също работят по-бързо. Нормализирана структура на данните.
Високо ниво на резервиране на данни Много ниско ниво на излишък на данни
Предлага заявки с по-висока производителност, използвайки оптимизиране на заявки със звездно присъединяване. Таблиците могат да бъдат свързани с множество измерения. Схемата Snow Flake е представена от централизирана таблица с факти, която е малко вероятно да е свързана с множество измерения.

40) Какво е идентифицираща връзка?

Идентифицирането на връзки между обекти в СУБД се използва за идентифициране на връзка между два обекта: 1) силен обект и 2) слаб обект.


41) Какво е саморекурсивна връзка?

Рекурсивната връзка е самостоятелна колона в таблица, която е свързана с първичния ключ на същата таблица.


42) Обяснете моделирането на релационни данни

Моделирането на релационни данни е представяне на обекти в релационна база данни, която обикновено е нормализирана.


43) Какво представлява анализът на прогнозното моделиране?

Процесът на валидиране или тестване на модел, който ще се използва за прогнозиране на резултатите от тестване и валидиране. Може да се използва за машинно обучение, изкуствен интелект, както и статистика.


44) Каква е разликата между логически модел на данни и физически модел на данни?

Логически модел на данни Физически модел на данни
Един логически модел на данни може да проектира логически изискванията на бизнеса. Физическият модел на данни предоставя информация за целевия източник на база данни и нейните свойства.
Той отговаря за действителното прилагане на данните, които се съхраняват в базата данни. Физическият модел на данни ви помага да създадете нов модел на база данни от съществуващ и да приложите ограничението за референтна цялост.
Той съдържа обект, атрибути на първичен ключ, ключове за инверсия, алтернативен ключ, правило, бизнес връзка, дефиниция и т.н. Физическият модел на данни съдържа таблица, ключови ограничения, уникален ключ, колони, външен ключ, индекси, стойности по подразбиране и др.

45) Какви са различните видове ограничения?

Различен тип ограничение може да бъде уникален, нулеви стойности, външни ключове, съставен ключ или ограничение за проверка и т.н.


46) Какво е инструмент за моделиране на данни?

Инструмент за моделиране на данни е софтуер, който помага при конструирането на поток от данни и връзката между данните. Примери за такива инструменти са Borland Together, Altova Database Spy, casewise, Case Studio 2 и т.н.


47) Какво е йерархична СУБД?

В йерархичната база данни моделните данни са организирани в дървовидна структура. Данните се съхраняват в йерархичен формат. Данните се представят с помощта на връзка родител-дете. В йерархичната СУБД родителят може да има много деца, децата имат само един родител.


48) Какви са недостатъците на йерархичния модел на данни?

Недостатъците на йерархичния модел на данни са:

  • Не е гъвкав, тъй като отнема време за адаптиране към променящите се нужди на бизнеса.
  • Структурата поставя проблема в междуведомствената комуникация, вертикалната комуникация, както и междуведомствената комуникация.
  • Йерархичният модел на данни може да създаде проблеми с разединението.

49) Обяснете управлявания от процеса подход на моделиране на данни

Подходът, управляван от процеса, използван при моделирането на данни, следва метод стъпка по стъпка за връзката между модела на субект-връзка и организационния процес.


50) Какви са предимствата от използването на моделиране на данни?

Предимствата на използването на моделиране на данни в хранилище на данни са:

  • Той ви помага да управлявате бизнес данни, като ги нормализирате и дефинирате техните атрибути.
  • Моделирането на данни интегрира данните от различни системи, за да намали излишъка на данни.
  • Позволява да се създаде ефективен дизайн на база данни.
  • Моделирането на данни помага на организационния отдел да функционира като екип.
  • Улеснява достъпа до данни с лекота.

51) Какви са недостатъците на използването на моделиране на данни?

Недостатъците на използването на моделиране на данни са:

  • Той има по-малка структурна независимост
  • Може да направи системата сложна.

52) Какво е индекс?

Индексът се използва за колона или група от колони за бързо извличане на данни.


53) Какви са характеристиките на логическия модел на данни?

Характеристиките на логическия модел на данни са:

  • Описва нуждите от данни за един проект, но може да се интегрира с други логически модели на данни въз основа на обхвата на проекта.
  • Проектиран и разработен независимо от СУБД.
  • Атрибутите на данните ще имат типове данни с точна прецизност и дължина.
  • Процесите на нормализиране на модела, които обикновено се прилагат обикновено до 3NF.

54) Какви са характеристиките на физическия модел на данни?

Характеристиките на физическия модел на данни са:

  • Физическият модел на данни описва необходимостта от данни за един проект или приложение. Може да се интегрира с други физически модели на данни въз основа на обхвата на проекта.
  • Моделът на данни съдържа релации между таблици, които адресират кардиналността и нищожността на релациите.
  • Разработено за конкретна версия на СУБД, местоположение, съхранение на данни или технология, която ще се използва в проекта.
  • Колоните трябва да имат точни типове данни, присвоени дължини и стойности по подразбиране.
  • Дефинират се първични и външни ключове, изгледи, индекси, профили за достъп и оторизации и др.

55) Какви са двата типа техники за моделиране на данни?

Два вида техники за моделиране на данни са: 1) модел на обект-връзка (ER) и 2) UML (Унифициран език за моделиране).


56) Какво е UML?

UML (Unified Modeling Language) е език за моделиране с общо предназначение за разработка на бази данни в областта на софтуерното инженерство. Основното намерение е да се осигури обобщен начин за визуализиране на дизайна на системата.


57) Обяснете модела на обектно-ориентирана база данни

Обектно-ориентираният модел на база данни е колекция от обекти. Тези обекти могат да имат свързани функции, както и методи.


58) Какво е мрежов модел?

Това е модел, който е изграден върху йерархичен модел. Той позволява повече от една връзка за свързване на записи, което показва, че има множество записи. Възможно е да се конструира набор от родителски записи и дъщерни записи. Всеки запис може да принадлежи към множество набори, които ви позволяват да изпълнявате сложни релации на таблици.


59) Какво е хеширане?

Хеширането е техника, която се използва за търсене на цялата стойност на индекса и извличане на желаните данни. Той помага да се изчисли директното местоположение на данните, които са записани на диска, без да се използва структурата на индекса.


60) Какво е бизнес или естествен ключ?

бизнес или естествени ключове е поле, което уникално идентифицира обект. Например клиентски номер, номер на служител, имейл и т.н.


61) Какво е съставен ключ?

Когато повече от едно поле се използва за представяне на ключ, той се нарича съставен ключ.


62) Коя е първата нормална форма?

Първата нормална форма или 1NF е свойство на релация, достъпно в система за управление на релационна база данни. Всяка връзка се нарича първа нормална форма, ако домейнът на всеки атрибут съдържа стойности, които са атомарни. Той съдържа една стойност от този домейн.


63) Каква е разликата между първичен и външен ключ?

Първичен ключ Външен ключ
Първичният ключ ви помага да идентифицирате уникално запис в таблицата. Външен ключ е поле в таблицата, което е първичен ключ на друга таблица.
Първичният ключ никога не приема нулеви стойности. Външен ключ може да приема множество нулеви стойности.
Първичният ключ е клъстериран индекс, а данните в таблицата на СУБД са физически организирани в последователността на клъстерирания индекс. Външен ключ не може автоматично да създаде индекс, клъстериран или неклъстериран. Можете обаче ръчно да създадете индекс на външния ключ.
Можете да имате единичен първичен ключ в таблица. Можете да имате няколко външни ключове в таблица.

64) Какви са изискванията на втората нормална форма?

Изискванията на втората нормална форма са:

  • Трябва да е в първата нормална форма.
  • Той не съдържа непростинен атрибут, който е функционално зависим от което и да е подмножество на кандидат ключ на релацията на таблицата.

65) Какви са правилата за третата нормална форма?

Правилата за трети нормални форми са:

  • Трябва да е във втора нормална форма
  • Няма преходни функционални зависимости.

66) Каква е важността на използването на ключове?

  • Ключовете ви помагат да идентифицирате всеки ред от данни в таблица. В приложение от реалния свят една таблица може да съдържа хиляди записи.
  • Ключовете гарантират, че можете уникално да идентифицирате запис на таблица въпреки тези предизвикателства.
  • Позволява ви да установите връзка между и да идентифицирате връзката между таблиците
  • Помогнете ви да наложите идентичност и почтеност във връзката.

67) Какво е сурогатен ключ?

Изкуствен ключ, който има за цел да идентифицира уникално всеки запис, се нарича сурогатен ключ. Тези видове ключове са уникални, защото се създават, когато нямате естествен първичен ключ. Те не придават никакво значение на данните в таблицата. Сурогатният ключ обикновено е цяло число.


68) Обяснете алтернативния ключ в детайли

Алтернативният ключ е колона или група от колони в таблица, която уникално идентифицира всеки ред в тази таблица. Една таблица може да има множество възможности за избор на първичен ключ, но само един може да бъде зададен като първичен ключ. Всички ключове, които не са първичен ключ, се наричат ​​алтернативен ключ.


69) Какво е четвъртата нормална форма в СУБД?

Четвъртата нормална форма е ниво на нормализиране на базата данни, където не трябва да има нетривиална зависимост, различна от кандидат ключ.


70) Какво е система за управление на база данни?

Система за управление на бази данни или СУБД е софтуер за съхраняване и извличане на потребителски данни. Състои се от група програми, които манипулират базата данни.


71) Какво е правилото на петата нормална форма?

Една маса е в 5th нормална форма само ако е в 4th нормална форма и не може да бъде разложен на произволен брой по-малки таблици без загуба на данни.


72) Какво е нормализация?

нормализиране е техника за проектиране на база данни, която организира таблици по начин, който намалява излишъка и зависимостта на данните. Той разделя по-големите таблици на по-малки и ги свързва с помощта на релации.


73) Обяснете характеристиките на система за управление на база данни

  • Осигурява сигурност и премахва излишъка
  • Самоописваща се природа на системата от бази данни
  • Изолация между програми и абстракция на данни
  • Поддръжка на множество изгледи на данни.
  • Споделяне на данни и многопотребителска обработка на транзакции
  • СУБД позволява на обекти и връзки между тях да формират таблици.
  • Той следва концепцията ACID (Atomиздръжливост, последователност, изолация и издръжливост).
  • СУБД поддържа многопотребителска среда, която позволява на потребителите достъп, достъп и манипулиране на данни паралелно.

74) Избройте популярния софтуер за СУБД

Популярен СУБД софтуер е:

  • MySQL
  • Microsoft Достъп
  • Oracle
  • PostgreSQL
  • dbase
  • Foxпрофесионалист
  • SQLite
  • IBM DB2
  • Microsoft SQL Server.

75) Обяснете концепцията за RDBMS

Релационна система за управление на база данни е софтуер, който се използва за съхраняване на данни под формата на таблици. В този вид система данните се управляват и съхраняват в редове и колони, което е известно като кортежи и атрибути. RDBMS е мощна система за управление на данни и се използва широко в целия свят.


76) Какви са предимствата на модела на данни?

Предимствата на модела на данни са:

  • Основната цел на проектирането на модел на данни е да се гарантира, че обектите с данни, предлагани от функционалния екип, са представени точно.
  • Моделът на данните трябва да бъде достатъчно подробен, за да се използва за изграждане на физическа база данни.
  • Информацията в модела на данни може да се използва за определяне на връзката между таблици, първични и външни ключове и съхранени процедури.
  • Моделът на данни помага на бизнеса да комуникира в рамките на и между организациите.
  • Моделът на данни помага за документиране на картографирането на данни в ETL процеса
  • Помогнете да разпознаете правилните източници на данни за попълване на модела

77) Какви са недостатъците на модела на данни?

Недостатъците на модела на данните са:

  • За да се разработи модел на данни, човек трябва да знае характеристиките на физическите съхранени данни.
  • Това е навигационна система, която произвежда комплексно разработване на приложения, управление. Следователно изисква познаване на биографичната истина.
  • Дори по-малките промени, направени в структурата, изискват модификация в цялото приложение.
  • В СУБД няма набор от език за манипулиране на данни.

78) Обяснете различни видове таблици с факти

Има три вида таблици с факти:

  • Добавка: Това е мярка, която се добавя към всяко измерение.
  • Без добавки: Това е мярка, която не може да се добави към нито едно измерение.
  • Полудобавка: Това е мярка, която може да се добави към няколко измерения.

79) Какво е сборна таблица?

Обобщената таблица съдържа обобщени данни, които могат да бъдат изчислени с помощта на функции като: 1) Средно 2) MAX, 3) Брой, 4) SUM, 5) SUM и 6) MIN.


80) Какво е потвърдено измерение?

Съгласуваното измерение е измерение, което е проектирано по начин, който може да се използва в много таблици с факти в различни области на хранилище за данни.


81) Избройте видовете йерархии в моделирането на данни

Има два вида йерархии: 1) йерархии, базирани на нива и 2) йерархии родител-дете.


82) Каква е разликата между база данни и склад за данни?

Ето основното разлика между Data Mart и Data Warehouse:

Витрина за данни Склад за данни
Data mart се фокусира върху една предметна област на бизнеса. Складът за данни се фокусира върху множество области на бизнеса.
Използва се за вземане на тактически решения за растеж на бизнеса. Помага на собствениците на фирми да вземат стратегическо решение
Data mart следва модела отдолу нагоре Складът за данни следва модел отгоре надолу
Източникът на данни идва от един източник на данни Източникът на данни идва от повече от един разнороден източник на данни.

83) Какво е XMLA?

XMLA е XML анализ, който се счита за стандарт за достъп до данни Онлайн аналитична обработка (OLAP).


84) Обяснете измерението на боклука

Нежеланото измерение помага за съхраняване на данни. Използва се, когато данните не са подходящи за съхранение в схема.


85) Обяснете верижната репликация на данни

Ситуацията, когато вторичен възел избира цел чрез време за ping или когато най-близкият възел е вторичен, се нарича верижна репликация на данни.


86) Обяснете виртуалното съхранение на данни

Виртуалното хранилище на данни дава общ изглед на завършените данни. Виртуалното хранилище на данни няма исторически данни. Счита се за логически модел на данни с метаданни.


87) Обяснете моментна снимка на хранилище за данни

Моментната снимка е пълна визуализация на данни в момента, в който започва процесът на извличане на данни.


88) Какво е двупосочен екстракт?

Способността на системата да извлича, почиства и прехвърля данни в две посоки се нарича насочен екстракт.

Тези въпроси за интервюто също ще ви помогнат във вашата viva (устна)