группировка строк в списке в pandas groupby

Question

группировка строк в списке в pandas groupby

у меня есть фрейм данных панды, как:

A 1

A 2

B 5

B 5

B 4

C 6

Я хочу сгруппировать по первому столбцу и получить второй столбец в виде списков в строках:

A [1,2]

B [5,5,4]

C [6]

можно ли сделать что-то подобное с помощью pandas groupby?

777 4

python pandas

4 ответов:

Comments

Ничего не найдено.

EdChum · Accepted Answer · 2016-09-28 15:09:22

вы можете сделать это с помощью groupby сгруппировать по интересующему столбцу и затем applylist для каждой группы:
In [1]:
# create the dataframe    
df = pd.DataFrame( {'a':['A','A','B','B','B','C'], 'b':[1,2,5,5,4,6]})
df
Out[1]:
   a  b
0  A  1
1  A  2
2  B  5
3  B  5
4  B  4
5  C  6

[6 rows x 2 columns]

In [76]:
df.groupby('a')['b'].apply(list)

Out[76]:
a
A       [1, 2]
B    [5, 5, 4]
C          [6]
Name: b, dtype: object

B. M. · Accepted Answer · 2018-08-27 19:13:58

Если производительность является важным опускаться до уровня включает в себя:

import numpy as np

df = pd.DataFrame({'a': np.random.randint(0,60,600), 'b': [1,2,5,5,4,6]*100})

def f(df):
         keys, values = df.sort_values('a').values.T
         ukeys, index = np.unique(keys,True)
         arrays = np.split(values,index[1:])
         df2 = pd.DataFrame({'a':ukeys,'b':[list(a) for a in arrays]})
         return df2

тесты:

In [301]: %timeit f(df)
1000 loops, best of 3: 1.64 ms per loop

In [302]: %timeit df.groupby('a')['b'].apply(list)
100 loops, best of 3: 5.26 ms per loop

Acorbe · Accepted Answer · 2014-03-06 12:17:52

как вы говорите groupby метод a pd.DataFrame объект может выполнить эту работу.

пример
 L = ['A','A','B','B','B','C']
 N = [1,2,5,5,4,6]

 import pandas as pd
 df = pd.DataFrame(zip(L,N),columns = list('LN'))


 groups = df.groupby(df.L)

 groups.groups
      {'A': [0, 1], 'B': [2, 3, 4], 'C': [5]}
который дает и индексное описание групп.

чтобы получить элементы одной группы, вы можете сделать, например
 groups.get_group('A')

     L  N
  0  A  1
  1  A  2

  groups.get_group('B')

     L  N
  2  B  5
  3  B  5
  4  B  4

Anamika Modi · Accepted Answer · 2018-09-27 09:28:03

удобный способ добиться этого будет:
df.groupby('a').agg({'b':lambda x: list(x)})
посмотрите на написание пользовательских агрегатов:https://www.kaggle.com/akshaysehgal/how-to-group-by-aggregate-using-py