Аналіз та з'єднання даних з кількох CSV-файлів у Python

Аналіз та з’єднання даних з кількох CSV-файлів у Python

3 Березня 2024 в 15:38 407

У сучасному світі обробка даних зазвичай означає роботу з великими обсягами інформації з різних джерел. Одним із типів даних, які часто використовуються для зберігання табличних даних, є CSV-файли. У багатьох випадках доводиться працювати з кількома CSV-файлами одночасно, об’єднуючи їх дані для подальшого аналізу.

У цій статті ми розглянемо, як за допомогою мови програмування Python та вбудованих бібліотек можна проводити аналіз та з’єднання рядків з кількох CSV-файлів. Ми також розглянемо оптимальні методи роботи з великими обсягами даних для забезпечення ефективності обробки і виконання алгоритмів.

Постановка задачі

Припустимо, у нас є кілька CSV-файлів, кожен з яких містить інформацію у форматі:

дата, час, ім'я1, ім'я2, число1, число2, число3, число4, число5, число6, число7

1	дата, час, ім'я1, ім'я2, число1, число2, число3, число4, число5, число6, число7

Нашою метою є отримання максимальних значень чисел 1-7, з’єднуючи рядки з різних файлів за умови, що дата, час, ім’я1 та ім’я2 однакові. Задача полягає в тому, щоб структурувати алгоритм таким чином, щоб він був якомога оптимальнішим з точки зору часу виконання.

Можливі підходи до розв’язання задачі

Першим можливим підходом до розв’язання цієї задачі є “брутфорс” – перебір усіх рядків з одного файлу з усіма іншими файлами для знаходження відповідностей. Однак цей підхід не є оптимальним з точки зору часу, особливо коли маємо справу з великими обсягами даних.

Іншим підходом може бути використання бібліотеки Pandas в Python. Pandas – це потужний інструмент для роботи з табличними даними, який надає можливість зчитувати, обробляти та аналізувати дані з CSV-файлів. За допомогою Pandas ми можемо легко зчитати дані з кожного файлу, здійснити групування рядків за вказаними умовами та виконати операції агрегування для отримання максимальних значень.

Реалізація в Python

Давайте розглянемо приклад реалізації цієї задачі в Python за допомогою бібліотеки Pandas:

import pandas as pd
from itertools import product
# Завантаження даних з CSV-файлів
df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')
# Створення всіх можливих комбінацій рядків
combined_rows = list(product(df1.iterrows(), df2.iterrows()))
max_values = []
# Пошук максимальних значень за умовою
for (index1, row1), (index2, row2) in combined_rows:
    if row1['date'] == row2['date'] and row1['time'] == row2['time'] and row1['name1'] == row2['name1'] and row1['name2'] == row2['name2']:
        max_values.append(max([row1['number1'], row1['number2'], row1['number3'], row1['number4'], row1['number5'], row1['number6'], row1['number7'],
                               row2['number1'], row2['number2'], row2['number3'], row2['number4'], row2['number5'], row2['number6'], row2['number7']]))
# Отримання максимального значення
max_number = max(max_values)
print("Максимальне значення:", max_number)

import pandas as pd

from itertools import product

# Завантаження даних з CSV-файлів

df1 = pd.read_csv('file1.csv')

df2 = pd.read_csv('file2.csv')

# Створення всіх можливих комбінацій рядків

combined_rows = list(product(df1.iterrows(), df2.iterrows()))

max_values = []

# Пошук максимальних значень за умовою

for (index1, row1), (index2, row2) in combined_rows:

if row1['date'] == row2['date'] and row1['time'] == row2['time'] and row1['name1'] == row2['name1'] and row1['name2'] == row2['name2']:

max_values.append(max([row1['number1'], row1['number2'], row1['number3'], row1['number4'], row1['number5'], row1['number6'], row1['number7'],

row2['number1'], row2['number2'], row2['number3'], row2['number4'], row2['number5'], row2['number6'], row2['number7']]))

# Отримання максимального значення

max_number = max(max_values)

print("Максимальне значення:", max_number)

У цьому коді ми спочатку завантажуємо дані з кожного CSV-файлу у відповідні об’єкти DataFrame за допомогою функції read_csv() з бібліотеки Pandas. Потім ми створюємо всі можливі комбінації рядків з цих файлів за допомогою функції product() з модуля itertools. Далі ми проходимося по кожній комбінації рядків і перевіряємо, чи виконуються умови з’єднання, після чого додаємо максимальне значення до списку max_values. Нарешті, ми знаходимо максимальне значення в цьому списку.

Це лише один з можливих підходів до аналізу та з’єднання даних з кількох CSV-файлів у Python. Існують інші методи, які можна використовувати, такі як використання бібліотеки NumPy для оптимізації обчислень або використання паралельних обчислень для прискорення операцій. Вибір конкретного підходу залежить від конкретної задачі та обсягу даних.