第一关：标准化

任务描述：

相关知识：

一、为什么要进行标准化

二、Z-score标准化

三、Min-max标准化

四、MaxAbs标准化

编程要求：

测试说明：

第二关：非线性转换

任务描述：

相关知识：

一、为什么要非线性转换：

二、映射到均匀分布：

三、映射到高斯分布：

编程要求：

测试说明：

第三关：归一化

任务描述：

相关知识：

一、为什么使用归一化：

二、L1范式归一化：

三、L2范式归一化：

编程要求：

测试说明：

第四关：离散值编码

任务描述：

相关知识：

一、LabelEncoder：

二、 OneHotEncoder：

编程要求：

测试说明：

第五关：生成多项式特征

任务描述：

相关知识：

一、为什么需要多项式特征：

二、PolynomialFeatures：

编程要求：

测试说明：

第六关：估算缺失值

任务描述：

相关知识：

1.为什么要估算缺失值：

2.Imputer：

编程要求：

测试说明：

第一关：标准化

任务描述：

本关任务：利用sklearn对数据进行标准化。

编程要求：

在右侧编辑器Begin-End处补充Python代码，实现数据标准化方法，我们会使用实现好的方法对数据进行处理。

测试说明：

我们会调用你实现的方法对数据进行处理，如使用Z-score方法，则处理后数据均值为0方差为1，如使用minmax方法，则处理后数据最小值为0，最大值为1，如使用maxabs方法，则处理后数据最大值为1。我们会对结果进行检测，完全正确则视为通关。

# -*- coding: utf-8 -*-

from sklearn.preprocessing import scale,MaxAbsScaler,MinMaxScaler

#实现数据预处理方法
def Preprocessing(x,y):
    '''
    x(ndarray):处理 数据
    y(str):y等于'z_score'使用z_score方法
           y等于'minmax'使用MinMaxScaler方法
           y等于'maxabs'使用MaxAbsScaler方法
    '''
    #********* Begin *********#
    if y == 'z_score':        
        x = scale(x)
        return x
    elif y == 'minmax':
        min_max_scaler  = MinMaxScaler()
        x = min_max_scaler.fit_transform(x)
        return x
    elif y == 'maxabs':
        maxabs = MaxAbsScaler()
        x = maxabs.fit_transform(x)
        return x


    #********* End *********#

第二关：非线性转换

任务描述：

本关任务：利用sklearn对数据进行非线性转换。

编程要求：

根据提示，在右侧编辑器Begin-End处补充Python代码，实现数据非线性转换方法，我们会使用实现好的方法对数据进行处理。

测试说明：

我们会调用你实现好的方法对数据进行处理，如输入数据为：

np.array([[1],[2],[3],[4],[5]])

映射到均匀分布,则处理后结果为:

np.array([[0. ], [0.25],[0.5 ],[0.75],[1. ]])

映射到高斯分布，则处理后结果为:

np.array([[-5.199],[-0.674],[ 0. ],[ 0.674],[ 5.199]])

# -*- coding: utf-8 -*-
from sklearn.preprocessing import QuantileTransformer

#实现非线性转换方法
def non_linear_transformation(x,y):
    '''
    x(ndarray):待处理数据
    y(int):y等于0映射到均匀分布
           y等于1映射到高斯分布
    '''
    #********* Begin *********#
    if y == 0:
        transformer = QuantileTransformer(random_state=666)
        x = transformer.fit_transform(x)
        return x
    elif y == 1:
        transformer = QuantileTransformer(output_distribution='normal',random_state=666)
        x = transformer.fit_transform(x)
        return x

    #********* End *********#

第三关：归一化

任务描述：

本关任务：利用sklearn对数据进行归一化。

编程要求：

根据提示，在右侧编辑器Begin-End处补充Python代码，实现数据归一化方法，我们会使用实现好的方法对数据进行处理。

测试说明：

我们会调用你实现的方法对数据进行处理，如数据为：

data = np.array([[-1,0,1],
[1,0,1],
[1,2,3]])

使用L1归一化则输出为：

array([[-0.5 , 0. , 0.5 ],
[ 0.5 , 0. , 0.5 ],
[ 0.167, 0.333, 0.5 ]])

使用L2归一化则输出为：

array([[-0.707, 0. , 0.707],
[ 0.707, 0. , 0.707],
[ 0.267, 0.535, 0.802]])

# -*- coding: utf-8 -*-

from sklearn.preprocessing import normalize

#实现数据归一化方法
def normalization(x,y):
    '''
    x(ndarray):待处理数据
    y(int):y等于1则使用"l1"归一化
           y等于2则使用"l2"归一化
    '''
    #********* Begin *********#
    if y == 1:
        x = normalize(x,norm='l1')
        return x
    elif y == 2:
        x = normalize(x,norm='l2')
        return x

    #********* End *********#

第四关：离散值编码

任务描述：

本关任务：利用sklearn对标签进行OneHot编码。

编程要求：

根据提示，在右侧编辑器Begin-End处补充代码，实现OneHot编码方法。

测试说明：

我们会调用你实现的方法对标签进行处理，如标签为：

label = ['male','female']

则经过OneHot编码后的数据为：

array([[0., 1.],
[1., 0.]])

# -*- coding: utf-8 -*-
import numpy as np
from sklearn.preprocessing import LabelEncoder,OneHotEncoder

def onehot_label(label):
    '''
    input:label(list):待处理标签
    output:lable(ndarray):onehot处理后的标签
    '''
    #********* Begin *********#
    int_label = LabelEncoder()
    label = int_label.fit_transform(label)
    label = np.array(label).reshape(len(label),1)
    onehot_label = OneHotEncoder()
    label = onehot_label.fit_transform(label).toarray()
    return label
   
    #********* End *********#

第五关：生成多项式特征

任务描述：

本关任务：利用sklearn生成多项式特征。

编程要求：

根据提示，在右侧编辑器Begin-End处补充代码，实现生成多项式特征方法。

测试说明：

我们会调用你实现的方法，将数据生成多项式特征，如数据为：

data = np.arange(6).reshape(3, 2)

则生成二项式特征为：

array([[ 1., 0., 1., 0., 0., 1.],
[ 1., 2., 3., 4., 6., 9.],
[ 1., 4., 5., 16., 20., 25.]])

生成二项式只交互特征为：

array([[ 1., 0., 1., 0.],
[ 1., 2., 3., 6.],
[ 1., 4., 5., 20.]])

# -*- coding: utf-8 -*-
from sklearn.preprocessing import PolynomialFeatures
def polyfeaturs(x,y):
    '''
    x(ndarray):待处理特征
    y(int):y等于0生成二项式特征
           y等于1生成二项式特征，只需要特征之间交互
    '''
    #********* Begin *********#
    if y==0:
        poly = PolynomialFeatures(2)#生成二项式特征
        x = poly.fit_transform(x)
        return x
    elif y==1:
        poly = PolynomialFeatures(degree=2, interaction_only=True)#生成二项式特征，只需要特征之间交互
        x = poly.fit_transform(x)
        return x

    #********* End *********#

第六关：估算缺失值

任务描述：

本关任务：利用sklearn对数据估算缺失值。

`编程要求：`

根据提示，在右侧编辑器Begin-End处补充代码，实现估算缺失值方法。

`测试说明：`

我们会调用你实现的估算缺失值方法对数据进行处理，如输入数据为：

data = [[np.nan, 2], [6, np.nan], [7, 4],[np.nan,4]]

则用取平均值方法处理后数据为：

array([[6.5 , 2. ],
[6. , 3.33333333],
[7. , 4. ],
[6.5 , 4. ]])

用取中位数方法处理后数据为：

array([[6.5, 2. ],
[6. , 4. ],
[7. , 4. ],
[6.5, 4. ]])

用出现频率最多的值代替缺失值方法处理后数据为：

array([[6., 2.],
[6., 4.],
[7., 4.],
[6., 4.]])

# -*- coding: utf-8 -*-
from sklearn.preprocessing import Imputer

def imp(x,y):
    '''
    x(ndarray):待处理数据
    y(str):y为'mean'则用取平均方式补充缺失值
           y为'meian'则用取中位数方式补充缺失值
           y为'most_frequent'则用出现频率最多的值代替缺失值        
    '''
    #********* Begin *********#
    if y == 'mean':
        im = Imputer(missing_values='NaN', strategy='mean', axis=0)
        x = im.fit_transform(x)
        return x
    elif y == 'median':
        im = Imputer(missing_values='NaN', strategy='median', axis=0)
        x = im.fit_transform(x)
        return x
    elif y == 'most_frequent':
        im = Imputer(missing_values='NaN', strategy='most_frequent', axis=0)
        x = im.fit_transform(x)
        return x


    #********* End *********#