Ефективне призначення даних у багатоколонкові структури в Pandas

3 Березня 2024 в 14:52 269

Робота з багатоколонковими даними в Pandas може стати викликом, особливо коли необхідно оновити або призначити значення за допомогою списку або інших ітерабельних структур. В оновлених версіях Pandas, таких як 2.2.1 з Python 3.11, певні методи, які раніше працювали, можуть викидати помилки або не працювати так, як очікувалося. Це стаття детально розглядає, як правильно призначати дані зі списку в кілька колонок DataFrame в Pandas, обходячи типові помилки та покращуючи стійкість коду до оновлень бібліотек.

Поширена проблема та її рішення

Користувачі Pandas часто стикаються з необхідністю оновити кілька колонок у DataFrame за допомогою значень, отриманих у вигляді списку або pd.Series. Стандартний підхід може призводити до помилок, особливо після оновлення бібліотеки. Розглянемо типову ситуацію та способи її вирішення.

Типова помилка

from unittest.mock import MagicMock
import pandas as pd
def test_assign_results() -> None:
    df = pd.DataFrame([{"is_ok": True, "failed": None, "col1": None, "col2": None}])
    m1 = MagicMock()
    m1.name = "col1_val"
    results = pd.Series([(m1, None)])
    try:
        df.loc[df["is_ok"] == True, ["col1", "col2"]] = results.to_numpy().tolist()
    except AttributeError as e:
        print(f"Error: {e}")

from unittest.mock import MagicMock

import pandas as pd

def test_assign_results() -> None:

df = pd.DataFrame([{"is_ok": True, "failed": None, "col1": None, "col2": None}])

m1 = MagicMock()

m1.name = "col1_val"

results = pd.Series([(m1, None)])

try:

df.loc[df["is_ok"] == True, ["col1", "col2"]] = results.to_numpy().tolist()

except AttributeError as e:

print(f"Error: {e}")

Цей код спробує оновити колонки ‘col1’ та ‘col2’ у DataFrame, але призведе до помилки AttributeError: ‘list’ object has no attribute ‘ndim’, особливо у новіших версіях Pandas. Проблема полягає в тому, що результат to_numpy().tolist() є списком, який не може бути безпосередньо використаний для оновлення багатоколонкових даних у DataFrame.

Вирішення проблеми

Правильний спосіб оновити кілька колонок полягає в використанні методу apply або прямого призначення значень через DataFrame.loc з використанням індексації або умов. Нижче наведено оновлений приклад коду, який демонструє, як ефективно оновити кілька колонок.

def update_multiple_columns(df, condition, column_names, values):
    if condition(df):
        df.loc[:, column_names] = pd.DataFrame([values], index=df.index)
    return df
df = pd.DataFrame([{"is_ok": True, "failed": None, "col1": None, "col2": None}])
m1 = MagicMock()
m1.name = "col1_val"
results = [(m1.name, None)]
# Оновлюємо колонки 'col1' та 'col2', використовуючи функцію оновлення
df = update_multiple_columns(df, lambda x: x["is_ok"] == True, ["col1", "col2"], results)
print(df)

def update_multiple_columns(df, condition, column_names, values):

if condition(df):

df.loc[:, column_names] = pd.DataFrame([values], index=df.index)

return df

df = pd.DataFrame([{"is_ok": True, "failed": None, "col1": None, "col2": None}])

m1 = MagicMock()

m1.name = "col1_val"

results = [(m1.name, None)]

# Оновлюємо колонки 'col1' та 'col2', використовуючи функцію оновлення

df = update_multiple_columns(df, lambda x: x["is_ok"] == True, ["col1", "col2"], results)

print(df)

У цьому прикладі функція update_multiple_columns використовує pd.DataFrame для створення тимчасового DataFrame з необхідними значеннями, а потім призначає ці значення відповідним колонкам основного DataFrame. Такий підхід забезпечує більшу гнучкість та сумісність із різними версіями Pandas.

Заключні думки

При роботі з Pandas важливо адаптувати свій код до оновлень бібліотеки, особливо коли справа доходить до оновлення або призначення даних у DataFrame. Використання правильних методів та підходів може значно зменшити ризик помилок та забезпечити більшу стійкість коду. Розглянуті вище методи є лише одним з багатьох способів ефективної роботи з даними в Pandas, і користувачам варто експериментувати з різними підходами для знаходження найкращого рішення для своїх завдань.