搜索历史

深入大型数据集：并行与分布化Python代码

深入大型数据集：并行与分布化Python代码

作者: （美）约翰·沃勒翰（John T.Wolohan）　著

15.49万字24人正在读

已完结现代当代当代文学

作品简介

《深入大型数据集：并行与分布化Python代码》共分3部分，主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格，以及Python中基础的map和reduce函数，并介绍如何将对象持久化，通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架，以及如何使用mrjob库来编写Hadoop作业，如何实现PageRank算法，如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识，包括如何通过boto3的Python库将文件上传到AWS S3服务，以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。《深入大型数据集：并行与分布化Python代码》适合有一定Python编程基础，且希望掌握大型数据集处理能力的开发人员和数据科学家阅读。

目录 (187章)

倒序

正文

第1部分 1入门介绍 1入门介绍-1.1你将从本书中学到什么 1入门介绍-1.2为什么是大型数据集 1入门介绍-1.3什么是并行计算 1.3.1理解并行计算 1.3.2拥有map和reduce编程风格的可扩展计算 1.3.3何时应该使用map和reduce编程风格 1入门介绍-1.4map和reduce编程风格 1.4.1用来转换数据的map函数 1.4.2用于高级转换的reduce函数 1.4.3用于数据转译管道的map和reduce函数 1入门介绍-1.5可提升速度和可扩展性的分布式计算 1入门介绍-1.6Hadoop：一个map和reduce的分布式框架 1入门介绍-1.7提供高性能map、reduce和其他功能的Spark 1入门介绍-1.8AWSElasticMapReduce——云上的大型数据集 1入门介绍-总结 2加速大型数据集处理任务：map函数和并行计算 2加速大型数据集处理任务：map函数和并行计算-2.1map函数简介 2.1.1通过map函数来获取URL 2.1.2惰性函数（比如map）对大型数据集的强大功能 2加速大型数据集处理任务：map函数和并行计算-2.2并行处理 2.2.1处理器和处理过程 2.2.4状态和并行化 2加速大型数据集处理任务：map函数和并行计算-2.3把它们拼在一起：抓取维基百科（Wikipedia）网站 2.3.1可视化我们的图 2.3.2回到map函数 2.4.1并行化的问题 2.4.2map函数 2.4.3并行化和速度 2.4.5Web抓取数据 2.4.6异构的map转换 2加速大型数据集处理任务：map函数和并行计算-总结 3用来映射复杂转换的函数管道 3用来映射复杂转换的函数管道-3.1辅助函数和函数链 3用来映射复杂转换的函数管道-3.2揭露黑客的通信手段 3.2.1创建辅助函数 3.2.2创建一个管道 3用来映射复杂转换的函数管道-3.3Twitter人口预测 3.3.1推文级别的管道 3.3.2用户级别的管道 3.3.3应用管道 3.4.1辅助函数和函数管道 3.4.2数学老师的“把戏”3.4.3恺撒密码 3用来映射复杂转换的函数管道-总结 4用惰性工作流来处理大型数据集 4用惰性工作流来处理大型数据集-4.1什么是惰性计算 4用惰性工作流来处理大型数据集-4.2一些你需要知道的惰性函数 4.2.3用iglob函数进行惰性文件搜索 4用惰性工作流来处理大型数据集-4.3理解迭代器：Python惰性能力背后的魔法 4.3.1惰性Python的支柱：迭代器 4.3.2生成器：用来创建数据的函数 4用惰性工作流来处理大型数据集-4.4诗歌谜题：如何惰性处理大型数据集 4.4.1生成这个示例的数据 4.4.2用iglob函数来读取诗的内容 4.4.3清理诗的正则表达式类 4.4.4计算诗歌内容的比率 4用惰性工作流来处理大型数据集-4.5惰性模拟：模拟渔村场景 4.5.1创建一个村庄类 4.5.2为我们的渔村场景设计一个模拟类 4.6.1惰性函数 4.6.2fizzbuzz问题生成器 4.6.3重复访问 4.6.4并行模拟 4.6.5拼字游戏单词 4用惰性工作流来处理大型数据集-总结 5使用reduce进行累加操作 5使用reduce进行累加操作-5.1使用reduce函数进行N-X的转换 5使用reduce进行累加操作-5.2reduce函数的三个部分 5.2.1reduce中的累加函数 5.2.2使用lambda函数的简化累加 5.2.3reduce函数中用于启动复杂行为的初始值 5使用reduce进行累加操作-5.3你熟悉的归约函数 5.3.1使用reduce函数来模拟filter函数 5.3.2使用reduce函数来模拟frequencies函数 5使用reduce进行累加操作-5.4同时使用map函数和reduce函数 5使用reduce进行累加操作-5.5使用reduce来分析汽车销售趋势 5.5.1使用map函数来清洗汽车数据 5.5.2使用reduce来计算汽车销售的总利润和总数量 5.5.3对汽车数据应用map和reduce模式 5使用reduce进行累加操作-5.6加速map和reduce 5使用reduce进行累加操作-5.7练习 5.7.1需要使用reduce的情况 5.7.2lambda函数 5.7.3最大的数字 5.7.4按长度分组单词 5使用reduce进行累加操作-总结 6使用高级并行化来加速map和reduce 6使用高级并行化来加速map和reduce-6.1充分利用并行map 6.1.1分块大小以及如何最大化地利用并行map 6.1.3更多的并行map：imap和starmap函数 6使用高级并行化来加速map和reduce-6.2解决并行map和reduce的悖论 6.2.1用来更快进行归约的并行reduce 6.2.2组合函数以及并行reduce工作流 6.2.3使用fold实现并行求和、filter和frequencies 6使用高级并行化来加速map和reduce-总结第2部分 7使用Hadoop和Spark处理真正的大型数据集 7使用Hadoop和Spark处理真正的大型数据集-7.1分布式计算 7使用Hadoop和Spark处理真正的大型数据集-7.2用于批处理的Hadoop 7使用Hadoop和Spark处理真正的大型数据集-7.3使用Hadoop找到高分单词 7.3.1使用Python和HadoopStreaming实现MapReduce作业 7.3.2使用HadoopStreaming对单词进行评分 7使用Hadoop和Spark处理真正的大型数据集-7.4用于交互式工作流的Spark 7.4.1用Spark在内存中处理大型数据集 7.4.2结合Python和Spark的PySpark 7.4.3使用SparkSQL进行企业数据分析 7.4.4用SparkDataFrame来处理列式数据 7使用Hadoop和Spark处理真正的大型数据集-7.5用Spark来记录单词得分 7.5.1搭建Spark环境 7.5.2通过spark-submit来运行MapReduceSpark作业 7.6.1HadoopStreaming脚本 7.6.2Spark接口 7.6.3RDD 7.6.4在多个步骤之间传递数据 7使用Hadoop和Spark处理真正的大型数据集-总结 8使用ApacheStreaming和mrjob处理大数据的最佳实践 8使用ApacheStreaming和mrjob处理大数据的最佳实践-8.1非结构化数据：日志和文档 8使用ApacheStreaming和mrjob处理大数据的最佳实践-8.2使用Hadoop对网球球员进行分析 8.2.1用来读取比赛数据的mapper函数 8.2.2计算网球选手等级的reducer函数 8使用ApacheStreaming和mrjob处理大数据的最佳实践-8.3通过mrjob工具，以Python的方式来使用HadoopStreaming 8.3.1一个mrjob作业的Python结构 8.3.2使用mrjob统计错误数量 8使用ApacheStreaming和mrjob处理大数据的最佳实践-8.4使用mrjob来分析网球比赛 8.4.1按场地类型统计塞雷娜的战绩 8.4.2统计威廉姆斯姐妹之间的长期竞争 8.5.1Hadoop的数据格式 8.5.2更多的Hadoop数据格式 8.5.3Hadoop的原生编程语言 8.5.4在MRJob中设计通用的模式 8使用ApacheStreaming和mrjob处理大数据的最佳实践-总结 9在PySpark中使用map和reduce来实现PageRank算法 9在PySpark中使用map和reduce来实现PageRank算法-9.1近距离了解PySpark 9.1.1PySpark中类似于map函数的方法 9.1.2PySpark中类似于reduce函数的方法 9.1.3PySpark中的简便方法 9在PySpark中使用map和reduce来实现PageRank算法-9.2在PySpark中使用Elo和PageRank算法对网球选手进行评分 9.2.1使用PySpark重新实现Elo评分 9.2.2介绍PageRank算法 9.2.3用PageRank来计算网球选手的评分 9.3.1sumByKey 9.3.2用toolz库来实现sumByKey 9.3.3Spark和toolz库 9.3.4维基百科的PageRank算法 9在PySpark中使用map和reduce来实现PageRank算法-总结 10使用机器学习和PySpark进行更快的决策 10使用机器学习和PySpark进行更快的决策-10.1什么是机器学习 10.1.1机器学习是一种可以自我调节的判断型算法 10使用机器学习和PySpark进行更快的决策-10.2机器学习基础与决策树分类器 10.2.1设计决策树分类器 10.2.2在PySpark中实现一个决策树(1)10.2.2在PySpark中实现一个决策树(2)10使用机器学习和PySpark进行更快的决策-10.3PySpark中的快速随机森林分类 10.3.1理解随机森林分类器 10.3.2实现一个随机森林分类器 10使用机器学习和PySpark进行更快的决策-总结第3部分 11使用AmazonWebServices和S3在云计算环境中处理大型数据集 11使用AmazonWebServices和S3在云计算环境中处理大型数据集-11.1AWSSimpleStorageService——针对大型数据集的解决方案 11.1.1用S3实现无限的存储 11.1.2云存储的可扩展性 11.1.3方便的存储异构对象 11.1.4用于管理大型数据集的管理服务 11.1.5管理大型数据集的生命周期策略 11使用AmazonWebServices和S3在云计算环境中处理大型数据集-11.2使用S3在云中存储数据 11.2.1通过浏览器来存储S3数据(1)11.2.1通过浏览器来存储S3数据(2)11.2.2使用Python和boto通过编程方式访问S3 11.3.1S3存储类型 11.3.2S3存储区域 11.3.3对象存储 11使用AmazonWebServices和S3在云计算环境中处理大型数据集-总结 12使用Amazon的ElasticMapReduce在云上实现MapReduce 12使用Amazon的ElasticMapReduce在云上实现MapReduce-12.1在EMR上通过mrjob来运行Hadoop 12.1.1用EMR方便地创建云计算集群 12.1.2使用mrjob启动EMR集群 12.1.3AWS的EMR浏览器界面 12使用Amazon的ElasticMapReduce在云上实现MapReduce-12.2在EMR上使用Spark来进行机器学习 12.2.1编写机器学习模型 12.2.2为Spark搭建一个EMR集群 12.2.3在集群中运行PySpark作业 12.3.1R系列集群 12.3.2相关联的Hadoop工作 12.3.3实例类型 12使用Amazon的ElasticMapReduce在云上实现MapReduce-总结

精选推荐

销售心理学

销售心理学

[中国纺织出版社]

已完结当代文学

销售就是玩转情商

销售就是玩转情商

[中国纺织出版社]

已完结当代文学

销售员情商实战训练

销售员情商实战训练

成功的销售需要高智商，更需要高情商。一个销售员的销售业绩，往往与他的情商成正比。本书从十个方面详细讲述了有效运用情商，提高销售业绩的方法和技巧。通过实际销售案例和销售心理学理论指导，以及实战点拨和情商拓展训练，帮助读者全方位、快速提高情商。故事性、多版块、碎片化的内容设置，有效降低读者阅读疲劳，提高阅读兴趣，不论是奔波在路上的销售小白，还是带领团队奋勇向前的销售经理，都能从中找到适合自己的销售软技巧。

已完结当代文学

让未来的你，感谢现在勇敢的自己

让未来的你，感谢现在勇敢的自己

[中国纺织出版社]

已完结当代文学

行为心理学入门（完全图解版）

行为心理学入门（完全图解版）

行为心理学入门（完全图解版）是以作者多来年的心理辅导和咨询数据为素材，对现实生活中的行为心理学应用进行了形象、深入、全面的论述和解读。本书与日本心理学图解书形式相同，浅显易读，有趣又益。

已完结当代文学

自制力：道理我都懂，为什么就是过不好人生

自制力：道理我都懂，为什么就是过不好人生

[中国纺织出版社]

已完结当代文学

能力与格局

能力与格局

[中国纺织出版社]

已完结当代文学

羊皮卷

羊皮卷

[中国纺织出版社]

已完结当代文学

组织领导力：组织高效运营与领导策略

组织领导力：组织高效运营与领导策略

[中国纺织出版社]

已完结当代文学