Spark MLlib（一）正则化特征

Spark 在其 MLlib 机器学习库中内置了一些函数用于特征的缩放和标准化。

（1）StandardScaler：标准正太变换
（2）Normalizer：特征向量正则化（范数为1，xi∥x∥）

pyspark

>>> from pyspark.mllib.feature import Normalizer1

验证两种方式（直接使用 numpy 相关函数进行处理，使用 mllib 提供的类）的归一化结果：

>>> import numpy as np>>> np.__version__'1.9.2'                         # 注意 numpy 的版本要高于 1.4 才行>>> np.random.seed(42)>>> x = np.random.randn(10)1
2
3
4
5

（1）numpy 相关函数

>>> normalized_x_2 = x / np.linalg.norm(x)1

（2）使用 MLlib 类

>>> from pyspark.mllib.feature import Normalizer>>> normalizer = Normalizer()>>> x = sc.parallelize([x])>>> normalized_x_mllib = normalizer.transform(x).first().toArray()                        # toArray：返回 numpy 数组1
2
3
4
5
6

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。