Найпопулярніші питання та відповіді на співбесіді з Data Analyst
Вступ
Отже, у вас незабаром співбесіда на посаду Data Analyst. Це може бути перший крок у дані, перехід із суміжної ролі (маркетинг, фінанси, операційка) або спроба вийти на сильніший рівень — з більшою відповідальністю та складнішими задачами.
Зазвичай перед такою співбесідою тривожить не “SQL як такий”, а інше: що саме спитають, чи буде задачка на запит, як пояснювати статистику простими словами, і як виглядати впевнено, якщо не памʼятаєш формулу напамʼять.
Зробіть глибокий вдих. Ви в правильному місці.
Data Analyst на співбесіді оцінюють за логікою: як ви мислите, як чистите дані, як ставите питання до бізнесу, як будуєте висновки та як відстоюєте якість результату. Інструменти важливі, але ще важливіше — мислення та структура.
Нижче — системний список питань і відповідей, згрупований за блоками: загальні, статистика, Excel, SQL, Tableau/BI та Python. Він допоможе вам не просто “вивчити відповіді”, а потренувати підхід.
Як користуватися цим списком
Працює так:
— прочитайте питання в блоці, який найближчий до вашої майбутньої ролі;
— спробуйте відповісти вголос своїми словами;
— звіртеся з прикладом нижче і підсиліть відповідь структурою;
— додайте 1 короткий реальний приклад зі свого досвіду або навчального проєкту.
Ціль — щоб на співбесіді ви звучали як людина, яка працює з даними щодня: спокійно, конкретно, з логікою і без “води”.
Загальні питання Data Analyst
Ці питання часто ставлять на старті, щоб зрозуміти, чи ви добре орієнтуєтесь у базових поняттях і як підходите до задач.
1) Чим відрізняються Data Mining і Data Profiling
Data Mining — це пошук закономірностей, сигналів і корисних інсайтів у даних (часто з використанням алгоритмів, кластеризації, моделей, правил асоціацій).
Data Profiling — це оцінка якості та структури датасету: унікальність значень, діапазони, пропуски, типи, консистентність, аномалії, дублікати.
Простими словами: profiling відповідає на “що в нас за дані і чи їм можна довіряти”, а mining — на “що ці дані можуть підказати”.
2) Що таке Data Wrangling
Data Wrangling — це процес перетворення “сирих” даних у формат, з яким реально працювати: чистка, нормалізація, структурування, обʼєднання, перевірка логіки та підготовка до аналізу.
Зазвичай включає: роботу з пропусками, дублями, типами даних, злиття таблиць, переформатування дат, стандартизацію категорій і перевірку бізнес-правил.
Це важливо, бо навіть найкраща візуалізація на брудних даних дасть неправильні рішення.
3) Які кроки є в типовому аналітичному проєкті
Базовий цикл (його люблять на співбесідах):
— Уточнення задачі: бізнес-питання, KPI успіху, хто користувач результату, обмеження.
— Збір даних: джерела, доступи, потрібні поля, період, частота.
— Підготовка: чистка, типи, пропуски, дублікати, outliers, узгодження визначень.
— EDA: первинний огляд, розподіли, звʼязки, аномалії, сегментація.
— Аналіз: метрики, порівняння, гіпотези, моделі (якщо треба).
— Інтерпретація: що це означає для бізнесу, причини, ризики, припущення.
— Комунікація: короткий висновок, рекомендації, візуалізація, наступні кроки.
— Відтворюваність: документація, версії, пайплайн, щоб можна було повторити.
4) З якими проблемами найчастіше стикається аналітик
Найтиповіші:
— пропуски, дублікати, неконсистентні категорії;
— різні визначення однієї метрики між командами;
— нестача контексту в даних (немає потрібних полів або подій);
— зміни в трекінгу/логіці без попередження;
— конфлікт “швидко vs якісно”;
— складність пояснити результат людям без технічного бекграунду.
5) Які інструменти ви використовували для аналізу та презентації
Сильна відповідь — назвати те, з чим реально працювали, і для чого саме:
— SQL (запити, джойни, агрегації, валідація даних);
— Excel/Google Sheets (перевірки, зведені, швидкий аналіз, прості дашборди);
— BI (Tableau/Power BI/Looker Studio) для візуалізації та репортингу;
— Python/R (pandas, візуалізації, статистика, автоматизація);
— презентації (структура висновків, рекомендації, контекст і обмеження).
6) Які найкращі методи data cleaning
Орієнтир: ви не “чистите все підряд”, а робите це системно.
— спочатку профілюю датасет (пропуски, типи, дублікати, діапазони);
— виправляю критичні помилки, які ламають аналіз;
— узгоджую правила: що вважати дублем, як трактувати пропуск, які межі валідні;
— документую всі трансформації, щоб результат був відтворюваним;
— там, де доречно, автоматизую повторювані кроки (скриптом або пайплайном).
7) Навіщо потрібен EDA
EDA (exploratory data analysis) дає швидке розуміння, з чим ви працюєте:
— чи нормальні розподіли, чи є зміщення/аномалії;
— які є звʼязки між змінними;
— де дані “брешуть” або мають підозрілі патерни;
— які сегменти відрізняються поведінкою;
— що варто перевірити гіпотезами далі.
8) Поясніть descriptive, predictive, prescriptive analytics
Descriptive: що сталося (звітність, тренди, динаміка, сегменти).
Predictive: що може статися (прогнози, ймовірність події, моделі).
Prescriptive: що варто зробити (рекомендації, оптимізація, сценарії рішень).
9) Які є типи семплінгу
Пʼять базових, які часто згадують:
— простий випадковий;
— систематичний;
— кластерний;
— стратифікований;
— цільовий/експертний (purposive).
10) Ваші сильні та слабкі сторони як аналітика
Ключ — не загальні слова, а приклад і план дій.
Сильні: структура мислення, уважність до якості даних, швидкий SQL, вміння формулювати висновки для бізнесу.
Слабка сторона (адекватна): наприклад, недостатній досвід із конкретним BI або доменом — і як ви закриваєте це (практика, маленькі проєкти, навчання, менторинг).
11) Етичні аспекти аналізу даних
Базовий список, який звучить професійно:
— приватність і мінімізація персональних даних;
— безпека доступу та зберігання;
— упередження в даних і ризик дискримінації;
— прозорість методів і припущень;
— відповідальність за рішення, які приймаються на основі аналізу;
— дотримання законів і політик компанії.
12) Univariate, bivariate, multivariate аналіз
Univariate — одна змінна (розподіл, середнє, медіана, гістограми).
Bivariate — дві змінні (кореляція, скатер, прості моделі).
Multivariate — три і більше (множинна регресія, PCA, кластери, факторний аналіз).
13) Які інструменти візуалізації ви використовували
Називайте те, що реально вмієте: Tableau, Power BI, Looker Studio, Excel-чарти, Plotly/Matplotlib, Qlik тощо — і 1–2 кейси “для чого”.
Питання зі статистики для Data Analyst
Це блок, де важливо не “вивчити терміни”, а вміти пояснити сенс і обрати метод під ситуацію.
14) Як обробляти missing values
Залежить від задачі, частки пропусків і причин. Типові підходи:
— видалення записів (коли пропусків мало і це не ламає вибірку);
— імпутація (mean/median для числових; mode/окрема категорія для категоріальних);
— регресійна імпутація;
— multiple imputation для більш коректної оцінки невизначеності;
— індикатор “is_missing”, якщо пропуски самі по собі несуть сигнал.
15) Що таке нормальний розподіл
Нормальний розподіл — симетричний “дзвін”, де середнє = медіана = мода, а більшість значень концентрується біля середнього.
Корисні правила: приблизно 68% в межах 1σ, 95% — 2σ, 99.7% — 3σ.
16) Що таке time series analysis
Це аналіз даних у часі, де спостереження впорядковані (день за днем, місяць за місяцем) і можуть бути автокорельованими.
Важливі речі: тренд, сезонність, шум, зсуви (breakpoints), лаги.
17) Overfitting vs Underfitting
Overfitting: модель “вивчила шум”, добре на train, погано на test.
Underfitting: модель занадто проста, погано і на train, і на test.
Рішення зазвичай: регуляризація, більше даних, кращі фічі, правильна валідація, контроль складності.
18) Як працювати з outliers
Спершу зʼясувати природу: помилка чи реальна аномалія.
Далі — один із підходів:
— видалити (якщо це явна помилка);
— caps/winsorization (обмежити крайні значення);
— трансформації (log, Box-Cox);
— окремий аналіз сегмента outliers, якщо це важливі кейси.
19) Null та Alternative hypothesis
H0: ефекту/звʼязку немає.
H1: ефект/звʼязок є.
Підхід: формулюю гіпотези, обираю тест, визначаю рівень значущості, інтерпретую результат разом із контекстом і величиною ефекту.
20) Type I та Type II errors
Type I — false positive: відхилили H0, хоча вона істинна.
Type II — false negative: не відхилили H0, хоча вона хибна.
Баланс залежить від ризику: в медицині, безпеці чи фінансах ці помилки мають різну “ціну”.
Excel: питання для Data Analyst
Excel часто перевіряють як “базову грамотність”: логічні функції, пошук, підсумки, зведені.
21) Як зробити число текстом в Excel
Найпростіше — поставити апостроф перед числом (наприклад, '123). Тоді Excel зберігає значення як текст.
22) COUNT vs COUNTA vs COUNTBLANK vs COUNTIF
— COUNT: рахує числові клітинки.
— COUNTA: рахує непорожні клітинки.
— COUNTBLANK: рахує порожні клітинки.
— COUNTIF: рахує за умовою.
23) Як зробити dropdown list
Data → Data Validation → Allow: List → Source: діапазон/список значень → ОК.
24) Як зробити динамічний діапазон для Pivot
Практичний шлях — перетворити діапазон у Table (Ctrl+T) і будувати pivot від Table. Тоді діапазон розширюється автоматично.
Або — Named Range через OFFSET/INDEX (але Table зазвичай простіше і надійніше).
25) Як отримати день тижня
Функція WEEKDAY() повертає номер дня тижня для дати (формат залежить від другого аргументу).
26) Як працює AND()
AND() перевіряє кілька умов. Повертає TRUE, якщо всі умови TRUE. Якщо хоча б одна FALSE — повертає FALSE.
27) Як працює VLOOKUP
VLOOKUP шукає значення в першому стовпці таблиці й повертає відповідне значення з заданого стовпця.
Параметри: lookup_value, table_array, col_index, range_lookup (TRUE приблизно / FALSE точно).
На співбесіді часто питають: чому VLOOKUP “ламається” (не перший стовпець, різні типи, пробіли) і чим замінити (XLOOKUP/INDEX+MATCH).
28) Як отримати поточну дату і час
— TODAY() повертає поточну дату.
— NOW() повертає поточну дату і час.
SQL: питання для Data Analyst
SQL — це майже завжди must. Тут важлива точність і вміння пояснити логіку запиту.
29) Як фільтрувати дані в SQL
Для рядків — WHERE. Для агрегованих результатів — HAVING (після GROUP BY).
30) WHERE vs HAVING
WHERE фільтрує рядки до агрегації, не працює з агрегатами напряму.
HAVING фільтрує вже агреговані групи (SUM, AVG тощо) після GROUP BY.
31) Чому не можна використовувати alias у WHERE
Тому що WHERE виконується до SELECT у логічному порядку обробки запиту. Якщо треба фільтрувати по alias — використовуйте підзапит/CTE або HAVING (якщо це агрегат).
32) UNION, INTERSECT, EXCEPT
— UNION: обʼєднує результати (зазвичай унікальні рядки, UNION ALL — з дублями).
— INTERSECT: залишає спільні рядки.
— EXCEPT: залишає рядки з першого запиту, яких немає в другому.
33) Що таке subquery
Підзапит — це запит усередині іншого запиту. Використовується для фільтрації, обчислень, побудови проміжних наборів даних.
Є correlated (залежить від зовнішнього) і non-correlated (незалежний).
34) Як знайти 4-те найбільше значення
Залежить від SQL-діалекту. Загальна ідея: сортування + обмеження + вибір потрібного рядка.
На співбесіді часто очікують підхід через window functions (ROW_NUMBER / DENSE_RANK) або OFFSET/FETCH.
Tableau / BI: питання для Data Analyst
Тут оцінюють, чи ви розумієте різницю між підключеннями, обʼєднаннями та логікою побудови візуалізацій.
35) Join vs Blend у Tableau
Join — обʼєднання даних у межах однієї логіки обробки (часто — на рівні джерела, зі спільним ключем).
Blend — “змішування” даних із різних джерел, де одне джерело primary, інше secondary, і звʼязок будується на спільних полях.
36) Що таке LOD
LOD (Level of Detail) — вирази, які дозволяють рахувати метрики на фіксованому рівні деталізації незалежно від того, що зараз у візуалізації.
Їх використовують, коли стандартна агрегація “не те рахує” або треба зафіксувати розрахунок на іншому рівні.
37) Extract vs Live connection
Live — дані тягнуться напряму з джерела, завжди актуальні, але можуть бути повільнішими.
Extract — збережений “зріз” даних, працює швидше, але оновлюється за графіком/вручну.
38) Які типи join підтримуються
Inner, Left, Right, Full (залежно від версії та режиму). Важливо розуміти, як вони впливають на кількість рядків і дублювання.
39) Treemap vs Heatmap
Treemap — вкладені прямокутники, добре показує структуру часток і порівняння категорій.
Heatmap — матриця, де значення кодуються кольором (і інколи розміром), добре показує патерни.
Python: питання для Data Analyst
Python у DA найчастіше перевіряють на pandas, базову роботу з масивами та вміння швидко пояснити логіку.
40) Як створити DataFrame в pandas
Найчастіше: зі списку, зі словника або через read_csv/read_excel з файлу. Важливо вміти швидко пояснити, як ви дивитесь head(), info(), describe().
41) Як вибрати кілька колонок
В pandas ви вибираєте потрібні колонки списком назв — і отримуєте підтаблицю.
42) Як дістати елемент з 2D масиву
Потрібно знати індексацію: [рядок, колонка]. На співбесіді важлива не “магія”, а спокійне пояснення, як ви визначили позицію.
43) Як витягнути непарні значення з масиву
Підхід: фільтр по модулю або слайсинг. Важливо пояснити, що ви відбираєте саме ті значення, які відповідають умові.
44) Як додати колонку в DataFrame
Додається як новий ключ: df['new_col'] = values або через assign(). Важливо, щоб довжина збігалася або був скаляр.
Фінальні поради перед співбесідою Data Analyst
— Тренуйте відповіді коротко: 20–40 секунд на базове питання, 1–2 хв на сценарій.
— На SQL задачах спочатку озвучуйте логіку, потім пишіть запит.
— Завжди уточнюйте визначення метрики: “що ми вважаємо конверсією / активністю / успіхом”.
— У статистиці пояснюйте сенс: коли метод доречний і які припущення він має.
— У висновках додавайте обмеження: що ви не можете стверджувати на 100% і що треба перевірити далі.
Висновок
Співбесіда Data Analyst — це не екзамен на памʼять. Це перевірка, чи ви вмієте думати даними: ставити правильні питання, перевіряти якість, обирати інструмент під задачу, акуратно інтерпретувати результат і комунікувати його бізнесу.
Пройдіться цим списком як тренуванням — і на співбесіді ви будете звучати зібрано, чітко і професійно.
Підпишись на наш Telegram-канал та отримуй свіжі статті та вакансії
Свіжі статті щотижня