python pandas: удалите дубликаты по столбцам A, сохраняя строку с самым высоким значением в столбце B

Question

python pandas: удалите дубликаты по столбцам A, сохраняя строку с самым высоким значением в столбце B

у меня есть фрейм данных с повторяющимися значениями в столбце A. Я хочу удалить дубликаты, сохраняя строку с самым высоким значением в столбце B.

значит так:

должно превратиться в это:

Уэс добавил некоторые хорошие функции для удаления дубликатов:http://wesmckinney.com/blog/?p=340. но AFAICT, он предназначен для точных дубликатов, поэтому нет упоминания о критериях выбора, какие строки сохраняются.

Я предполагая, что, вероятно, есть простой способ сделать это-может быть, так же просто, как сортировка фрейма данных перед удалением дубликатов-но я не знаю внутреннюю логику groupby достаточно хорошо, чтобы понять это. Есть предложения?

1714 8

python pandas duplicates

8 ответов:

Comments

Ничего не найдено.

Wes McKinney · Accepted Answer · 2017-10-04 21:03:43

это занимает последнее. Не максимум, хотя:
In [10]: df.drop_duplicates(subset='A', keep="last")
Out[10]: 
   A   B
1  1  20
3  2  40
4  3  10
Вы можете сделать также что-то вроде:
In [12]: df.groupby('A', group_keys=False).apply(lambda x: x.loc[x.B.idxmax()])
Out[12]: 
   A   B
A       
1  1  20
2  2  40
3  3  10

Ted Petrou · Accepted Answer · 2017-08-09 19:24:35

верхний ответ делает слишком много работы и выглядит очень медленно для больших наборов данных. apply медленно, и его следует избегать, если это возможно. ix является устаревшим и его также следует избегать.
df.sort_values('B', ascending=False).drop_duplicates('A').sort_index()

   A   B
1  1  20
3  2  40
4  3  10
или просто сгруппируйте все остальные столбцы и возьмите максимум столбца, который вам нужен. df.groupby('A', as_index=False).max()

eumiro · Accepted Answer · 2012-09-19 18:10:56

попробуйте это:
df.groupby(['A']).max()

7

2012-09-19 18:10:56

Venkat · Accepted Answer · 2017-08-05 21:48:25

вы можете попробовать это также
df.drop_duplicates(subset='A', keep='last')
Я сослался на это из https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html

whateveros · Accepted Answer · 2017-09-01 14:15:59

Я думаю, что в вашем случае вам действительно не нужен groupby. Я бы отсортировал по убыванию ваш столбец B, а затем отбросил дубликаты в столбце A, и если вы хотите, у вас также может быть новый хороший и чистый индекс вот так:
df.sort_values('B', ascending=False).drop_duplicates('A').sort_index().reset_index(drop=True)

Mahesh · Accepted Answer · 2017-01-14 17:16:38

это также работает:

a=pd.DataFrame({'A':a.groupby('A')['B'].max().index,'B':a.groupby('A')       ['B'].max().values})

Bhagabat Behera · Accepted Answer · 2018-06-24 15:43:15

когда уже заданные сообщения отвечают на вопрос, я внес небольшое изменение, добавив имя столбца, к которому применяется функция max() для лучшей читаемости кода.
df.groupby('A', as_index=False)['B'].max()

Abhranil Das · Accepted Answer · 2012-09-19 18:10:29

Я не собираюсь давать вам полный ответ (я не думаю, что вы ищете разбор и запись в файл часть в любом случае), но ключевой намек должен быть достаточным: используйте python's