基于python 等频分箱qcut问题的解决

这篇文章主要介绍了基于python 等频分箱qcut问题的解决，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

在python 较新的版本中，pandas.qcut()这个函数中是有duplicates这个参数的，它能解决在等频分箱中遇到的重复值过多引起报错的问题；

在比较旧版本的python中，提供一下解决办法：

 import pandas as pd def pct_rank_qcut(series, n): ''' series：要分箱的列 n：箱子数 ''' edages = pd.series([i/n for i in range(n)] # 转换成百分比 func = lambda x: (edages >= x).argmax() #函数：(edages >= x)返回fasle/true列表中第一次出现true的索引值 return series.rank(pct=1).astype(float).apply(func) #series.rank(pct=1)每个值对应的百分位数，最终返回对应的组数;rank()函数传入的数据类型若为object，结果会有问题，因此进行了astype

补充拓展：Python数据离散化:等宽及等频

在处理数据时，我们往往需要将连续性变量进行离散化，最常用的方式便是等宽离散化，等频离散化，在此处我们讨论离散化的概念，只给出在python中的实现以供参考

1. 等宽离散化

使用pandas中的cut()函数进行划分

 import numpy as np import pandas as pd # Discretization: Equal Width # # Datas: Sample * Feature def Discretization_EqualWidth(K, Datas, FeatureNumber): DisDatas = np.zeros_like(Datas) for i in range(FeatureNumber): DisOneFeature = pd.cut(Datas[:, i], K, labels=range(1, K+1)) DisDatas[:, i] = DisOneFeature return DisDatas

2. 等频离散化

pandas中有qcut()可以使用，但是边界易出现重复值，如果为了删除重复值设置 duplicates=‘drop'，则易出现于分片个数少于指定个数的问题，因此在此处不使用qcut()

 import numpy as np import pandas as pd # Discretization: Equal Frequency # # vector: single feature def Rank_qcut(vector, K): quantile = np.array([float(i) / K for i in range(K + 1)]) # Quantile: K+1 values funBounder = lambda x: (quantile >= x).argmax() return vector.rank(pct=True).apply(funBounder) # Discretization: Equal Frequency # # Datas: Sample * Feature def Discretization_EqualFrequency(K, Datas, FeatureNumber): DisDatas = np.zeros_like(Datas) w = [float(i) / K for i in range(K + 1)] for i in range(FeatureNumber): DisOneFeature = Rank_qcut(pd.Series(Datas[:, i]), K) #print(DisOneFeature) DisDatas[:, i] = DisOneFeature return DisDatas

以上就是基于python 等频分箱qcut问题的解决的详细内容，更多请关注0133技术站其它相关文章！