pandas操作04

数据离散化

自动分组

pd.qcut(data,bins) :data是想要分组的数据,bins是分几组
series.value_counts()：统计分组次数

自定义分组

pd.cut(data,bins)   #bins自己指定分组区间

one-hot编码矩阵

pandas.get_dummies(data, prefix=None)
prefix:分组名字

示例:

import pandas as pd
data=pd.read_csv("./stock_day.csv")
data_p=data['p_change']
p_counts=pd.qcut(data_p,10)  #自行分组
#实现哑变量矩阵one-hot
dummies = pd.get_dummies(p_counts, prefix="rise")

在这里插入图片描述

数据合并

pd.concat([data1, data2], axis=1)
按照行或列进行合并,axis=0为列索引，axis=1为行索引
pd.merge(left, right, how='inner', on=None)
	left:表1
	right:表2
	how:按照何种方式合并(inner,outer,left,right)
	on:指定的共同键

示例(接上面):

#根据行索引实现合并
pd.concat([data,dummies],axis=1)

在这里插入图片描述
merge示例:

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                        'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                        'key2': ['K0', 'K0', 'K0', 'K0'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']})
#内联
pd.merge(left,right,how="inner",on=["key1","key2"])
#左联
pd.merge(left,right,how="left",on=["key1","key2"])
#右联
pd.merge(left,right,how="right",on=["key1","key2"])
#外联
pd.merge(left,right,how="outer",on=["key1","key2"])

在这里插入图片描述

交叉表与透视表

import numpy as np
date=pd.to_datetime(data.index).weekday
data['week']=date  #增加一列星期
data['posi_neg']=np.where(data['p_change']>0,1,0)
data['posi_neg']  #增加一列posi_neg
#按照星期进行分组
#按照posi_neg进行分组
count = pd.crosstab(data['week'],data['posi_neg'])
#行求和
sum = count.sum(axis=1).astype(np.float32)
pro = count.div(sum, axis=0).plot(kind='bar',stacked=True)

在这里插入图片描述

本文链接：https://blog.csdn.net/qq_30774825/article/details/105429702

智能推荐

pandas常见操作

处理缺失值分组统计 https://blog.csdn.net/elecjack/article/details/50760736 df[df[‘列名’].isin([相应的值])] 这个命令会输出等于该值的行。有时，你可能希望得到DataFrame中多个相关列的一张柱状图。例如：将pandas.value_counts传给该DataFrame的apply函数，就会出...

pandas基础操作

pandas基础操作对象的创建对象的访问时间序列较为简单的可视化文件读写普通文件的读写 python和mysql数据库 pandas基础操作 Pandas是一个强大的时间序列数据处理工具包，最初开发用于分析财经数据，现在广泛的应用于数据分析领域。对象的创建 pandas的两个基本数据结构分别是Series和DataFrame,其中Series是最基本的数据结构，用来表达一...

Pandas操作02

CSV 打开csv类型的文件示例: 保存csv格式文件示例: HDF5(推荐使用) 读取HDF5文件示例: 如果显示: 则需要安装: 存储文件: 示例: 再次读取的时候, 需要指定键的名字 JSON 读取json文件示例: 存为json 查找数据直接使用行列索引查找,但必须是先列后行根据行列索引找到对应的值根据行索引下标提取数据赋值,将某一列全赋值为1 排序筛选综合分析,可以直...

Pandas简单操作

pandas读取csv文件运行环境jupyter read_csv()基本参数:文件路径 Pandas抽取数据如果数据存在索引，可以通过索引抽取其中一列或者一行如果需要抽取列中特定的属性，可以在抽取时指定属性为条件。可以直接直接抽取一个属性或多个属性。然后通过pandas的to_csv()方法写到本地文件夹，to_csv()需要参数来指定位置。或 Pandas日期操作通过pandas中的...

pandas的基本操作

转载的一篇关于pandas的文章，很好的笔记（侵权联系速删）。数据读写数据初印象数据清洗类型转换与元素及运算数据合并、连接与汇总...

pandas操作04

数据离散化

自动分组

自定义分组

one-hot编码矩阵

数据合并

交叉表与透视表

智能推荐

猜你喜欢