TensorFlowOnSpark首页、文档和下载

http://www.oschina.net/p/tensorflowonspark?fromerr=IaM8unP7

TensorFlowOnSpark 将 TensorFlow 带到 Apache Spark 集群上，由 Yahoo 开源。

TensorFlowOnSpark 为 Apache Hadoop 和 Apache Spark 集群带来可扩展的深度学习。通过结合深入学习框架 TensorFlow 和大数据框架 Apache Spark 、Apache Hadoop 的显着特征，TensorFlowOnSpark 能够在 GPU 和 CPU 服务器集群上实现分布式深度学习。

TensorFlowOnSpark 支持对 Apache Spark 集群进行分布式 TensorFlow 训练和推断。它试图最小化在共享网格上运行现有 TensorFlow 程序所需的代码更改量。它的 Spark 兼容 API 通过以下步骤来管理 TensorFlow 集群：

预留 - 为每个执行程序保留 TensorFlow 进程的端口，并启动数据/控制消息的侦听器。
启动 - 在执行器上启动 Tensorflow 主函数。
数据摄取

Readers & QueueRunners - 利用 TensorFlow 的 Reader 机制直接从 HDFS 读取数据文件。
Feeding - 使用 feed_dict 机制将 Spark RDD 数据发送到 TensorFlow 节点。请注意，需利用 Hadoop 输入/输出格式访问 HDFS 上的 TFRecords。

关闭 - 关闭执行器上的 Tensorflow 工作线程和 PS 节点。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。