dataframe- все статьи тега
Pandas Multiindex from array => TypeError: unhashable тип: 'dict'
Я пытаюсь создать фрейм данных из массива со следующей структурой: df = [[{'date_time': Timestamp('2015-05-22 05:37:59'), 'name': 'Tom', 'value': '129'}, {'date_time': Timestamp('2015-05-22 05:37:59'), 'name': 'Kate', 'value': '0'}, {'date_time': Timestamp('2015-05-22 05:37:59'), 'name': 'GroupeId', 'value': '0'}, {...}, {...}, {...}],[another list of dictionaries like the first one],[and another one]] Используя этот код: def cr ...
как объединить несколько листов excel из одного файла?
У меня есть большой файл excel, который содержит много разных листов. Все листы имеют одинаковую структуру, например: Name col1 col2 col3 col4 1 1 2 4 4 3 2 1 Как я могу объединить (вертикально) все эти листы в Pandas, не называя каждый из них вручную? Если бы это были файлы, я мог бы использовать glob для получения списка файлов в каталоге. Но здесь, для листов excel, я потерялся. Существует ли способ создать переменную в результирующем фрейме данных, которая иде ...
Питон панды - построение многомерной сводной таблицы, чтобы отобразить количество Нанс и non-Нанс
У меня есть набор данных, основанный на различных метеостанциях для нескольких переменных (температура, давление и т. д.), stationID | Time | Temperature | Pressure |... ----------+------+-------------+----------+ 123 | 1 | 30 | 1010.5 | 123 | 2 | 31 | 1009.0 | 202 | 1 | 24 | NaN | 202 | 2 | 24.3 | NaN | 202 | 3 | NaN | 1000.3 | ... И я хотел бы создать сводную таблицу, которая показывал ...
Близлежащие значения столбца таблицы данных в Python
У меня есть фрейм данных с некоторыми столбцами, скажем' n 'столбцов и некоторые строки, скажем' m ' строк. Я хочу сгруппировать строки фрейма данных в зависимости от одного столбца(столбец:'x') значения, это не точное совпадение значений столбца 'x'. Мне нужно сгруппировать близлежащие ценности. Например, мой фрейм данных будет выглядеть так: y yh x xw w Nxt 0 2987 3129 347 2092 1735.0 501 1 2715 2847 501 1725 1224.0 492 2 2419 2716 490 2196 17 ...
Заполнение NaN в фрейме данных на основе значений столбца
У меня есть данные, которые напоминают следующий упрощенный пример: Col1 Col2 Col3 a A 10.1 b A NaN d B NaN e B 12.3 f B NaN g C 14.1 h C NaN i C NaN ...на многие тысячи рядов. Мне нужно заполнить LNA, основываясь на значении в Col2, используя что-то аналогичное методу ffill. Результат, который я ищу, таков: Col1 Col2 Col3 a A 10.1 b A 10.1 d B ...
Python: создание ковариационной матрицы из списков
Есть ли самый быстрый способ перейти от следующих трех списков к ковариационной матрице в Python (массив numpy)? Fac2 Fac1 VarCovar a a 1.4 a b 0.7 a c 0.3 b a 0.7 b b 1.8 b c 6.3 c a 0.3 c b 6.3 c c 2.4 ...
Разбить столбцы на мультииндекс с отсутствующими столбцами в панд
Это похоже на задачу, которую я задал здесь. Однако я обнаружил, что данные, с которыми я работаю, не всегда согласуются. Например, скажем: import pandas as pd df = pd.DataFrame(pd.DataFrame([[1,2,3,4],[5,6,7,8],[9,10,11,12]],columns=["X_a","Y_c","X_b","Y_a"])) X_a Y_c X_b Y_a 0 1 2 3 4 1 5 6 7 8 2 9 10 11 12 Теперь вы можете видеть, что X не имеет соответствующего столбца c и Y не имеет соответствующего столбца b. Теперь, когда я хочу создать многоу ...
Python Dataframe-вычислить среднее значение групп и хранить
Я пишу на Python. Фрейм данных full_df имеет функции: building_id и log_price. Я хочу вычислить среднее значение log_price, сгруппированное по building_idи новую функцию mean_log_priceв full_df, созданную, храня среднее значение log_priceсогласно его building_id. У меня есть следующий код: full_df['mean_log_price'] = full_df.groupby(['building_id'],as_index=False).agg(np.mean)['log_price'] Однако, когда я смотрю в full_df, некоторые значения для mean_log_price являются NaN, и н ...
Как Вы читаете в фрейме данных со списками, используя pd.читать буфер обмена?
Вот некоторые данные из другого вопроса: positive negative neutral 1 [marvel, moral, bold, destiny] [] [view, should] 2 [beautiful] [complicated, need] [] 3 [celebrate] [crippling, addiction] [big] Что бы я сделал сначала, это добавил кавычки через все слова, а затем: import ast df = pd.read_clipboard(sep='s{2,}') df = df.applymap(ast.lite ...
Группировка дат по 5 минутным периодам независимо от дня
У меня есть фрейм данных с данными, похожими на следующие import pandas as pd; import numpy as np; import datetime; from datetime import timedelta; df = pd.DataFrame(index=pd.date_range(start='20160102', end='20170301', freq='5min')) df['value'] = np.random.randn(df.index.size) df.index += pd.Series([timedelta(seconds=np.random.randint(-60, 60)) for _ in range(df.index.size)]) Который выглядит так In[37]: df Out[37]: value 2016-01-02 00:00: ...
Pandas dataframe: группируйте по столбцу и пусть дубликаты этого столбца занимают несколько строк
У меня есть фрейм данных, и я хотел бы сгруппировать элементы по одному из столбцов, и там, где эти столбцы имеют идентичные элементы, я хотел бы сделать их одним большим элементом (охватывающим несколько строк). Наконец, мне нужно сделать его в коде latex. Скажем, у меня есть что-то вроде import pandas as pd import random table=pd.DataFrame({'a':[1,2,2,2,3,6,6],'b':[-6,-4,-3,-1,0,-1,-2],'c':random.sample(xrange(30), 7)},index=range(7)) Предоставление фрейма данных | | a | b | c | ----- ...
Как присвоить уникальный идентификационный номер каждой группе идентичных значений в столбце [дубликат]
На этот вопрос уже есть ответ здесь: добавить столбец ID по группе [дубликат] 4 ответа У меня есть фрейм данных с несколькими столбцами. Я хотел бы создать новый столбец под названием "id", который дает уникальный идентификационный номер каждой группе идентичных значений в столбце" образец". Пример данных: # dput(df) df <- structure(list(index = 1:30, val = c(14L, 22L, 1L, 25L, 3L, 34L, 35L, 36 ...
Перегруппировать значения столбцов в Panda df
У меня есть script, который присваивает значение, основанное на двух columns в a pandas df. Приведенный ниже код способен реализовать 1-й шаг, но я борюсь со вторым. Поэтому сценарий должен изначально: 1) назначить Person для каждого отдельного string в [Area] и первый 3 unique values в [Place] 2) Смотрите, чтобы переназначить People с меньшим, чем 3 unique values пример. df ниже имеют 6 unique values в [Area] и [Place]. Но назначены 3 People. В идеале, 2 люди будут 2 unique values каждый ...
фрейм данных pandas с заголовком в 2 строки и экспортом в csv
У меня есть фрейм данных df = pd.DataFrame(columns = ["AA", "BB", "CC"]) df.loc[0]= ["a", "b", "c1"] df.loc[1]= ["a", "b", "c2"] df.loc[2]= ["a", "b", "c3"] Мне нужно добавить строку secod в заголовок df.columns = pd.MultiIndex.from_tuples(zip(df.columns, ["DD", "EE", "FF"])) Мой df теперь AA BB CC DD EE FF 0 a b c1 1 a b c2 2 a b c3 Но когда я пишу этот фрейм данных в csv-файл df.to_csv("test.csv", index = False) Я получаю на одну строку больше, чем ожидалось AA ...
Р - Добавить новый столбец к таблице данных, используя соответствующие значения из другой таблицы данных
Я пытаюсь заполнить таблицу 1 соответствующими значениями val2 таблицы 2 table1$New_val2 = table2[table2$pid==table1$pid,]$val2 Но я получаю предупреждение longer object length is not a multiple of shorter object length Что вполне справедливо, поскольку длины таблиц не одинаковы. Пожалуйста, направьте меня на правильный путь, чтобы сделать это. ...
Заменить значения NULL в таблице данных СПАРК
Я увидел здесь решение, но когда я попробовал, оно не работает для меня. Сначала я импортирую автомобили.csv-файл: val df = sqlContext.read .format("com.databricks.spark.csv") .option("header", "true") .load("/usr/local/spark/cars.csv") Который выглядит следующим образом: +----+-----+-----+--------------------+-----+ |year| make|model| comment|blank| +----+-----+-----+--------------------+-----+ |2012|Tesla| S| No comment| ...
Python Pandas добавить столбец имени файла CSV
Мой код python работает правильно в приведенном ниже примере. Мой код объединяет каталог CSV-файлов и соответствует заголовкам. Однако я хочу сделать еще один шаг - как добавить столбец, который добавляет имя файла CSV, который был использован? import pandas as pd import glob globbed_files = glob.glob("*.csv") #creates a list of all csv files data = [] # pd.concat takes a list of dataframes as an agrument for csv in globbed_files: frame = pd.read_csv(csv) data.append(frame) bigframe ...
Ошибка типа: unhashable тип "список" при выборе подмножества из определенных столбцов pandas dataframe
У меня есть фрейм данных, который имеет около 20 столбцов, и я пытаюсь получить подмножество фрейма данных, выбрав только некоторые конкретные столбцы около 6. Моя строка кода: df3_query = df3[['Cont NUMBER'],['PL NUMBER'],['NAME'],['LOAN COUNT'],['SCORE MINIMUM'],['COUNT PERCENT']] Я получаю ошибку как TypeError: unhashable type: 'list' Могу ли я узнать причину, по которой я получаю эту ошибку? Кроме того, я хотел бы выбрать только те столбцы из фрейма данных df3. Может ли кто-нибудь ...
R pandas groupby индекс первой строки в каждой группе
Как получить индекс первой строки в каждой группе по группам? (я знаю .метод groupBy.first () возвращает первую строку в каждой группе, но я не знаю, как получить их индекс) Большое спасибо! ...
Наиболее эффективный способ перебора и обновления строк в большом фрейме данных pandas
Это мой фрагмент кода для обновления строк фрейма данных: def arrangeData(df): hour_from_timestamp_list = [] date_from_timestamp_list = [] for row in df.itertuples(): timestamp = row.timestamp hour_from_timestamp = datetime.fromtimestamp( int(timestamp) / 1000).strftime('%H:%M:%S') date_from_timestamp = datetime.fromtimestamp( int(timestamp) / 1000).strftime('%d-%m-%Y') hour_from_timestamp_list.append(hour_from_timestamp) date_from_timestamp_list.append(date ...