Ефективне фільтрування даних з декількох фреймів даних за допомогою Pandas у Python

6 Березня 2024 в 17:16 293

Фільтрування даних з декількох джерел є поширеною задачею у сфері аналізу даних та наукових досліджень. У цій статті ми розглянемо підходи до ефективного фільтрування даних з використанням бібліотеки Pandas у Python.

У наукових дослідженнях, а також у реальних сценаріях аналізу даних, часто виникає потреба у фільтруванні даних з декількох джерел та створенні нового набору даних на основі цього фільтрування. Наприклад, може бути необхідно порівняти дані з різних експериментів або зібрати дані з різних джерел для подальшого аналізу.

Бібліотека Pandas у Python є потужним інструментом для роботи з даними, зокрема з фреймами даних. Вона надає зручний та ефективний інтерфейс для фільтрування даних, що дозволяє легко виконувати операції над великими обсягами даних.

Одним із широко використовуваних методів фільтрування даних у Pandas є використання логічних умов для вибору певних рядків даних у фреймі даних. Наприклад, ми можемо використовувати умовні вирази для вибору рядків, що задовольняють певним умовам.

import pandas as pd
# Завантаження даних з декількох джерел
df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')
# Задання умов для фільтрування даних
condition1 = df1['column1'] > 0
condition2 = df2['column2'] < 100
# Фільтрування даних та створення нового набору даних
filtered_df1 = df1[condition1]
filtered_df2 = df2[condition2]
new_dataframe = pd.concat([filtered_df1, filtered_df2], ignore_index=True)

import pandas as pd

# Завантаження даних з декількох джерел

df1 = pd.read_csv('file1.csv')

df2 = pd.read_csv('file2.csv')

# Задання умов для фільтрування даних

condition1 = df1['column1'] > 0

condition2 = df2['column2'] < 100

# Фільтрування даних та створення нового набору даних

filtered_df1 = df1[condition1]

filtered_df2 = df2[condition2]

new_dataframe = pd.concat([filtered_df1, filtered_df2], ignore_index=True)

У цьому прикладі ми завантажуємо дані з двох різних джерел у відповідні фрейми даних, а потім задаємо умови для фільтрування даних у кожному фреймі. Після цього ми об’єднуємо результати фільтрування, щоб створити новий набір даних , який містить дані, що задовольняють обидві умови.

Однак, є ситуації, коли потрібно фільтрувати дані на основі спільних умов з декількох фреймів даних. У таких випадках ми можемо скористатися функціями Pandas для обробки даних і виконати операції, які дозволять нам відібрати лише ті рядки, які задовольняють умови в обох фреймах даних.

Для цього ми можемо використати функцію merge або concat з відповідними параметрами для об’єднання фреймів даних та фільтрації результатів.

# Задання умов для фільтрування даних
condition1 = df1['column1'] > 0
condition2 = df2['column2'] < 100
# Об'єднання фреймів даних
merged_df = pd.merge(df1, df2, on='common_column')
# Фільтрування даних
filtered_data = merged_df[(merged_df['column1'] > 0) & (merged_df['column2'] < 100)]

# Задання умов для фільтрування даних

condition1 = df1['column1'] > 0

condition2 = df2['column2'] < 100

# Об'єднання фреймів даних

merged_df = pd.merge(df1, df2, on='common_column')

# Фільтрування даних

filtered_data = merged_df[(merged_df['column1'] > 0) & (merged_df['column2'] < 100)]

У цьому прикладі ми об’єднуємо два фрейми даних за допомогою функції merge, що дозволяє нам об’єднати фрейми даних за спільними значеннями у вказаних стовпцях. Після цього ми застосовуємо умови фільтрації до об’єднаного фрейму даних, щоб відібрати лише ті рядки, які задовольняють умови в обох фреймах.

У цій статті ми розглянули різні підходи до фільтрування даних з декількох фреймів даних за допомогою бібліотеки Pandas у Python. Незалежно від складності задачі, Pandas надає потужні засоби для ефективної обробки та аналізу даних.