Pandas DataFrame groupby два столбца и получить первый и последний

Question

Pandas DataFrame groupby два столбца и получить первый и последний

У меня есть DataFrame как следовать.

df = pd.DataFrame({'id' : [1,1,2,3,2],

                'value'  : ["a","b","a","a","c"], 'Time' : ['6/Nov/2012 23:59:59 -0600','6/Nov/2012 00:00:05 -0600','7/Nov/2012 00:00:09 -0600','27/Nov/2012 00:00:13 -0600','27/Nov/2012 00:00:17 -0600']})

Мне нужно получить вывод, подобный следующему.

combined_id | enter time | exit time | time difference

Combined_id должна быть создана группировка 'ID' и 'значение'

g = df.groupby(['id', 'value'])

Следующее Не работает с группировкой по двум столбцам. (Как использовать first() и last() здесь в качестве времени входа и выхода?)

df['enter'] = g.apply(lambda x: x.first())

Чтобы получить разницу, будет ли работать следование?

df['delta'] = (df['exit']-df['enter'].shift()).fillna(0)

1027 1

python pandas dataframe

1 ответ:

Comments

Ничего не найдено.

Andy Hayden · Accepted Answer · 2014-03-11 07:37:38

Сначала убедитесь, что ваш столбец является правильным столбцом datetime:
In [11]: df['Time'] = pd.to_datetime(df['Time'])
Теперь вы можете выполнить groupby и использовать agg с методами first и last groupby:
In [12]: g = df.groupby(['id', 'value'])

In [13]: res = g['Time'].agg({'first': 'first', 'last': 'last'})

In [14]: res = g['Time'].agg({'enter': 'first', 'exit': 'last'})

In [15]: res['time_diff'] = res['exit'] - res['enter']

In [16]: res
Out[16]:
                        exit               enter  time_diff
id value
1  a     2012-11-06 23:59:59 2012-11-06 23:59:59     0 days
   b     2012-11-06 00:00:05 2012-11-06 00:00:05     0 days
2  a     2012-11-07 00:00:09 2012-11-07 00:00:09     0 days
   c     2012-11-27 00:00:17 2012-11-27 00:00:17     0 days
3  a     2012-11-27 00:00:13 2012-11-27 00:00:13     0 days
Примечание: это немного скучный пример, так как в каждой группе есть только один элемент...