打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Spark MLlib(一)正则化特征

Spark 在其 MLlib 机器学习库中内置了一些函数用于特征的缩放和标准化。

  • (1)StandardScaler:标准正太变换
  • (2)Normalizer:特征向量正则化(范数为1,xix

pyspark

>>> from pyspark.mllib.feature import Normalizer
  • 1

验证两种方式(直接使用 numpy 相关函数进行处理,使用 mllib 提供的类)的归一化结果:

>>> import numpy as np>>> np.__version__'1.9.2'                         # 注意 numpy 的版本要高于 1.4 才行>>> np.random.seed(42)>>> x = np.random.randn(10)
  • 1
  • 2
  • 3
  • 4
  • 5
  • (1)numpy 相关函数

    >>> normalized_x_2 = x / np.linalg.norm(x)
    • 1
  • (2)使用 MLlib 类

    >>> from pyspark.mllib.feature import Normalizer>>> normalizer = Normalizer()>>> x = sc.parallelize([x])>>> normalized_x_mllib = normalizer.transform(x).first().toArray()                        # toArray:返回 numpy 数组
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
Spark2.x+Python大数据机器学习视频课程
深入理解XGBoost:分布式实现
sklearn数据预处理:归一化、标准化、正则化
机器学习和深度学习的最佳Python库
K均值聚类算法
50行代码实现人脸检测
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服