Використання Python та Pandas для порівняння даних у DataFrames та отримання прогнозів

8 Березня 2024 в 00:05 370

При роботі з даними часто виникає необхідність порівняти два або більше набори даних та отримати прогнози або результати на їх основі. У даній статті ми розглянемо рішення задачі порівняння двох DataFrames та отримання прогнозів з використанням мови програмування Python та бібліотеки Pandas.

Уявімо, що ми маємо два DataFrame: df1 та df2. Перший DataFrame містить дані про файли та їх класи, а другий – класи та порогові значення. Наша мета – отримати прогнози для кожного файлу на основі порівняння їх класів з відповідними пороговими значеннями.

Для початку, давайте розглянемо задачу більш детально:

Задача

Ми маємо два DataFrame:

df1 = {
    'file_names': ['file_name1', 'file_name2', 'file_name3', 'file_name4'],
    'class1': [0.655, 0.5216, 0.1561, 0.5616],
    'class2': [0.5216, 0.0231, 0.516, 0.546],
    'class3': [0.2131, 0.516, 0.2165, 0.651],
    'class4': [0.65, 0.2165, 0.2165, 0.05616],
    'class5': [0.01265, 0.0516, 0.05, 0.0561]
}
df2 = {
    'class': ['class2', 'class3', 'class4', 'class1', 'class5'],
    'threshold': [0.2165, 0.5165, 0.79874, 0.216, 0.3546]
}

df1 = {

'file_names': ['file_name1', 'file_name2', 'file_name3', 'file_name4'],

'class1': [0.655, 0.5216, 0.1561, 0.5616],

'class2': [0.5216, 0.0231, 0.516, 0.546],

'class3': [0.2131, 0.516, 0.2165, 0.651],

'class4': [0.65, 0.2165, 0.2165, 0.05616],

'class5': [0.01265, 0.0516, 0.05, 0.0561]

}

df2 = {

'class': ['class2', 'class3', 'class4', 'class1', 'class5'],

'threshold': [0.2165, 0.5165, 0.79874, 0.216, 0.3546]

}

Ми хочемо отримати прогнози для кожного файлу в df1 на основі порівняння значень класів з відповідними пороговими значеннями у df2. Наприклад, якщо значення класу у df1 більше або дорівнює відповідному пороговому значенню у df2, ми додаємо цей клас до прогнозів для відповідного файлу.

Рішення

Для реалізації даної задачі, ми можемо скористатися мовою програмування Python та бібліотекою Pandas. Основна ідея полягає в тому, щоб пройтися по кожному рядку у df1 та порівняти значення класів з відповідними пороговими значеннями у df2.

Одним із можливих рішень може бути використання функції apply для df1, яка буде порівнювати значення класів з відповідними пороговими значеннями та повертати прогнози для кожного файлу.

df2 = df2.set_index('class')['threshold'].to_dict()
def get_predictions(row):
    predictions = []
    for col in df1.columns[1:]:
        if row[col] >= threshold_dict.get(col, 0):
            predictions.append(col)
    return ', '.join(predictions)
df1['prediction'] = df1.apply(get_predictions, axis=1)

df2 = df2.set_index('class')['threshold'].to_dict()

def get_predictions(row):

predictions = []

for col in df1.columns[1:]:

if row[col] >= threshold_dict.get(col, 0):

predictions.append(col)

return ', '.join(predictions)

df1['prediction'] = df1.apply(get_predictions, axis=1)

Однак, під час реалізації цього рішення можуть виникнути деякі помилки. Наприклад, може виникнути помилка, що говорить про відсутність інформації про помилку.

Альтернативним підходом може бути використання ітерації по рядках df1 за допомогою методу iterrows. Це дозволяє проходити кожен рядок окремо та порівнювати значення класів.

results = []
for index, row in df1.iterrows():
    file_name = row['file_name']
    prediction = []
    # Iterate over columns of df1(classes)
    for column in df1.columns[1:]:
        if row[column] >= df2[column].values[0]:
            prediction.append(column)
    results.append({'file_name': file_name, 'prediction': ', '.join(prediction)})

results = []

for index, row in df1.iterrows():

file_name = row['file_name']

prediction = []

# Iterate over columns of df1(classes)

for column in df1.columns[1:]:

if row[column] >= df2[column].values[0]:

prediction.append(column)

results.append({'file_name': file_name, 'prediction': ', '.join(prediction)})

Проте, цей підхід також може викликати деякі помилки, такі як “Index 0 is out of bounds for axis 0 with size 0”, що свідчить про проблему з отриманням назв стовпців.

Висновок

У даній статті ми розглянули задачу порівняння даних у двох DataFrames та отримання прогнозів на їх основі з використанням мови програмування Python та бібліотеки Pandas. Ми розглянули два можливих підходи до вирішення цієї задачі та натякнули на деякі можливі проблеми під час реалізації.

Надіємося, що ця стаття була корисною для вас у розумінні та вирішенні подібних завдань.