Подсчет уникальных значений с панд на группы [дубликат]

Question

Подсчет уникальных значений с панд на группы [дубликат]

этот вопрос уже есть ответ здесь:

количество панд (различных) эквивалент

3 ответы

мне нужно посчитать уникальные ID значения в каждом domain
У меня есть

ID, domain

123, 'vk.com'

123, 'vk.com'

123, 'twitter.com'

456, 'vk.com'

456, 'facebook.com'

456, 'vk.com'

456, 'google.com'

789, 'twitter.com'

789, 'vk.com'

пробовал df.groupby(['domain', 'ID']).count()
Но я хочу получить

domain, count

vk.com   3

twitter.com   2

facebook.com   1

google.com   1

2982 4

python group-by pandas unique

4 ответов:

Comments

Ничего не найдено.

jezrael · Accepted Answer · 2018-08-09 15:29:37

вам нужно nunique:
df = df.groupby('domain')['ID'].nunique()

print (df)
domain
'facebook.com'    1
'google.com'      1
'twitter.com'     2
'vk.com'          3
Name: ID, dtype: int64
Если вам нужно strip' символы:
df = df.ID.groupby([df.domain.str.strip("'")]).nunique()
print (df)
domain
facebook.com    1
google.com      1
twitter.com     2
vk.com          3
Name: ID, dtype: int64
или Jon Clements комментирует:
df.groupby(df.domain.str.strip("'"))['ID'].nunique()
вы можете сохранить имя столбца, как это:
df = df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})
print(df)
    domain  ID
0       fb   1
1      ggl   1
2  twitter   2
3       vk   3
разница в том, что nunique() возвращает серию и agg() возвращает фрейм данных.

Psidom · Accepted Answer · 2017-08-25 04:45:20

обычно для подсчета различных значений в одном столбце можно использовать Series.value_counts:
df.domain.value_counts()

#'vk.com'          5
#'twitter.com'     2
#'facebook.com'    1
#'google.com'      1
#Name: domain, dtype: int64
чтобы увидеть, сколько уникальных значений в столбце, используйте Series.nunique:
df.domain.nunique()
# 4
чтобы получить все эти различные значения, вы можете использовать unique или drop_duplicates небольшая разница между этими двумя функциями заключается в том, что unique возвратить numpy.array пока drop_duplicates возвращает a pandas.Series:
df.domain.unique()
# array(["'vk.com'", "'twitter.com'", "'facebook.com'", "'google.com'"], dtype=object)

df.domain.drop_duplicates()
#0          'vk.com'
#2     'twitter.com'
#4    'facebook.com'
#6      'google.com'
#Name: domain, dtype: object
что касается этой конкретной проблемы, так как вы хотите подсчитать отличное значение по отношению к другой переменной, кроме groupby метод, предоставленный другими ответами здесь, вы также можете просто отбросить дубликаты, а затем сделать value_counts():
import pandas as pd
df.drop_duplicates().domain.value_counts()

# 'vk.com'          3
# 'twitter.com'     2
# 'facebook.com'    1
# 'google.com'      1
# Name: domain, dtype: int64

ysearka · Accepted Answer · 2016-07-11 17:50:17

IIUC вы хотите количество различных ID для каждого domain, тогда вы можете попробовать это:
output = df.drop_duplicates()
output.groupby('domain').size()
выход:
    domain
facebook.com    1
google.com      1
twitter.com     2
vk.com          3
dtype: int64
вы также можете использовать value_counts, что немного менее эффективно.Но лучше всего ответ Израила с помощью nunique:
%timeit df.drop_duplicates().groupby('domain').size()
1000 loops, best of 3: 939 µs per loop
%timeit df.drop_duplicates().domain.value_counts()
1000 loops, best of 3: 1.1 ms per loop
%timeit df.groupby('domain')['ID'].nunique()
1000 loops, best of 3: 440 µs per loop

kamran kausar · Accepted Answer · 2018-07-13 11:54:21

df.домен.value_counts ()

>>> df.domain.value_counts()

vk.com          5

twitter.com     2

google.com      1

facebook.com    1

Name: domain, dtype: int64