奇迹小说
搜索历史
深入大型数据集:并行与分布化Python代码

深入大型数据集:并行与分布化Python代码

作者: (美)约翰·沃勒翰(John T.Wolohan) 著

15.49万24人 正在读

已完结现代当代当代文学
作品简介

《深入大型数据集:并行与分布化Python代码》共分3部分,主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格,以及Python中基础的map和reduce函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架,以及如何使用mrjob库来编写Hadoop作业,如何实现PageRank算法,如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识,包括如何通过boto3的Python库将文件上传到AWS S3服务,以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。 《深入大型数据集:并行与分布化Python代码》适合有一定Python编程基础,且希望掌握大型数据集处理能力的开发人员和数据科学家阅读。

目录 (187章)
倒序
正文
第1部分1入门介绍1入门介绍-1.1你将从本书中学到什么1入门介绍-1.2为什么是大型数据集1入门介绍-1.3什么是并行计算1.3.1理解并行计算1.3.2拥有map和reduce编程风格的可扩展计算1.3.3何时应该使用map和reduce编程风格1入门介绍-1.4map和reduce编程风格1.4.1用来转换数据的map函数1.4.2用于高级转换的reduce函数1.4.3用于数据转译管道的map和reduce函数1入门介绍-1.5可提升速度和可扩展性的分布式计算1入门介绍-1.6Hadoop:一个map和reduce的分布式框架1入门介绍-1.7提供高性能map、reduce和其他功能的Spark1入门介绍-1.8AWSElasticMapReduce——云上的大型数据集1入门介绍-总结2加速大型数据集处理任务:map函数和并行计算2加速大型数据集处理任务:map函数和并行计算-2.1map函数简介2.1.1通过map函数来获取URL2.1.2惰性函数(比如map)对大型数据集的强大功能2加速大型数据集处理任务:map函数和并行计算-2.2并行处理2.2.1处理器和处理过程2.2.4状态和并行化2加速大型数据集处理任务:map函数和并行计算-2.3把它们拼在一起:抓取维基百科(Wikipedia)网站2.3.1可视化我们的图2.3.2回到map函数2.4.1并行化的问题2.4.2map函数2.4.3并行化和速度2.4.5Web抓取数据2.4.6异构的map转换2加速大型数据集处理任务:map函数和并行计算-总结3用来映射复杂转换的函数管道3用来映射复杂转换的函数管道-3.1辅助函数和函数链3用来映射复杂转换的函数管道-3.2揭露黑客的通信手段3.2.1创建辅助函数3.2.2创建一个管道3用来映射复杂转换的函数管道-3.3Twitter人口预测3.3.1推文级别的管道3.3.2用户级别的管道3.3.3应用管道3.4.1辅助函数和函数管道3.4.2数学老师的“把戏”3.4.3恺撒密码3用来映射复杂转换的函数管道-总结4用惰性工作流来处理大型数据集4用惰性工作流来处理大型数据集-4.1什么是惰性计算4用惰性工作流来处理大型数据集-4.2一些你需要知道的惰性函数4.2.3用iglob函数进行惰性文件搜索4用惰性工作流来处理大型数据集-4.3理解迭代器:Python惰性能力背后的魔法4.3.1惰性Python的支柱:迭代器4.3.2生成器:用来创建数据的函数4用惰性工作流来处理大型数据集-4.4诗歌谜题:如何惰性处理大型数据集4.4.1生成这个示例的数据4.4.2用iglob函数来读取诗的内容4.4.3清理诗的正则表达式类4.4.4计算诗歌内容的比率4用惰性工作流来处理大型数据集-4.5惰性模拟:模拟渔村场景4.5.1创建一个村庄类4.5.2为我们的渔村场景设计一个模拟类4.6.1惰性函数4.6.2fizzbuzz问题生成器4.6.3重复访问4.6.4并行模拟4.6.5拼字游戏单词4用惰性工作流来处理大型数据集-总结5使用reduce进行累加操作5使用reduce进行累加操作-5.1使用reduce函数进行N-X的转换5使用reduce进行累加操作-5.2reduce函数的三个部分5.2.1reduce中的累加函数5.2.2使用lambda函数的简化累加5.2.3reduce函数中用于启动复杂行为的初始值5使用reduce进行累加操作-5.3你熟悉的归约函数5.3.1使用reduce函数来模拟filter函数5.3.2使用reduce函数来模拟frequencies函数5使用reduce进行累加操作-5.4同时使用map函数和reduce函数5使用reduce进行累加操作-5.5使用reduce来分析汽车销售趋势5.5.1使用map函数来清洗汽车数据5.5.2使用reduce来计算汽车销售的总利润和总数量5.5.3对汽车数据应用map和reduce模式5使用reduce进行累加操作-5.6加速map和reduce5使用reduce进行累加操作-5.7练习5.7.1需要使用reduce的情况5.7.2lambda函数5.7.3最大的数字5.7.4按长度分组单词5使用reduce进行累加操作-总结6使用高级并行化来加速map和reduce6使用高级并行化来加速map和reduce-6.1充分利用并行map6.1.1分块大小以及如何最大化地利用并行map6.1.3更多的并行map:imap和starmap函数6使用高级并行化来加速map和reduce-6.2解决并行map和reduce的悖论6.2.1用来更快进行归约的并行reduce6.2.2组合函数以及并行reduce工作流6.2.3使用fold实现并行求和、filter和frequencies6使用高级并行化来加速map和reduce-总结第2部分7使用Hadoop和Spark处理真正的大型数据集7使用Hadoop和Spark处理真正的大型数据集-7.1分布式计算7使用Hadoop和Spark处理真正的大型数据集-7.2用于批处理的Hadoop7使用Hadoop和Spark处理真正的大型数据集-7.3使用Hadoop找到高分单词7.3.1使用Python和HadoopStreaming实现MapReduce作业7.3.2使用HadoopStreaming对单词进行评分7使用Hadoop和Spark处理真正的大型数据集-7.4用于交互式工作流的Spark7.4.1用Spark在内存中处理大型数据集7.4.2结合Python和Spark的PySpark7.4.3使用SparkSQL进行企业数据分析7.4.4用SparkDataFrame来处理列式数据7使用Hadoop和Spark处理真正的大型数据集-7.5用Spark来记录单词得分7.5.1搭建Spark环境7.5.2通过spark-submit来运行MapReduceSpark作业7.6.1HadoopStreaming脚本7.6.2Spark接口7.6.3RDD7.6.4在多个步骤之间传递数据7使用Hadoop和Spark处理真正的大型数据集-总结8使用ApacheStreaming和mrjob处理大数据的最佳实践8使用ApacheStreaming和mrjob处理大数据的最佳实践-8.1非结构化数据:日志和文档8使用ApacheStreaming和mrjob处理大数据的最佳实践-8.2使用Hadoop对网球球员进行分析8.2.1用来读取比赛数据的mapper函数8.2.2计算网球选手等级的reducer函数8使用ApacheStreaming和mrjob处理大数据的最佳实践-8.3通过mrjob工具,以Python的方式来使用HadoopStreaming8.3.1一个mrjob作业的Python结构8.3.2使用mrjob统计错误数量8使用ApacheStreaming和mrjob处理大数据的最佳实践-8.4使用mrjob来分析网球比赛8.4.1按场地类型统计塞雷娜的战绩8.4.2统计威廉姆斯姐妹之间的长期竞争8.5.1Hadoop的数据格式8.5.2更多的Hadoop数据格式8.5.3Hadoop的原生编程语言8.5.4在MRJob中设计通用的模式8使用ApacheStreaming和mrjob处理大数据的最佳实践-总结9在PySpark中使用map和reduce来实现PageRank算法9在PySpark中使用map和reduce来实现PageRank算法-9.1近距离了解PySpark9.1.1PySpark中类似于map函数的方法9.1.2PySpark中类似于reduce函数的方法9.1.3PySpark中的简便方法9在PySpark中使用map和reduce来实现PageRank算法-9.2在PySpark中使用Elo和PageRank算法对网球选手进行评分9.2.1使用PySpark重新实现Elo评分9.2.2介绍PageRank算法9.2.3用PageRank来计算网球选手的评分9.3.1sumByKey9.3.2用toolz库来实现sumByKey9.3.3Spark和toolz库9.3.4维基百科的PageRank算法9在PySpark中使用map和reduce来实现PageRank算法-总结10使用机器学习和PySpark进行更快的决策10使用机器学习和PySpark进行更快的决策-10.1什么是机器学习10.1.1机器学习是一种可以自我调节的判断型算法10使用机器学习和PySpark进行更快的决策-10.2机器学习基础与决策树分类器10.2.1设计决策树分类器10.2.2在PySpark中实现一个决策树(1)10.2.2在PySpark中实现一个决策树(2)10使用机器学习和PySpark进行更快的决策-10.3PySpark中的快速随机森林分类10.3.1理解随机森林分类器10.3.2实现一个随机森林分类器10使用机器学习和PySpark进行更快的决策-总结第3部分11使用AmazonWebServices和S3在云计算环境中处理大型数据集11使用AmazonWebServices和S3在云计算环境中处理大型数据集-11.1AWSSimpleStorageService——针对大型数据集的解决方案11.1.1用S3实现无限的存储11.1.2云存储的可扩展性11.1.3方便的存储异构对象11.1.4用于管理大型数据集的管理服务11.1.5管理大型数据集的生命周期策略11使用AmazonWebServices和S3在云计算环境中处理大型数据集-11.2使用S3在云中存储数据11.2.1通过浏览器来存储S3数据(1)11.2.1通过浏览器来存储S3数据(2)11.2.2使用Python和boto通过编程方式访问S311.3.1S3存储类型11.3.2S3存储区域11.3.3对象存储11使用AmazonWebServices和S3在云计算环境中处理大型数据集-总结12使用Amazon的ElasticMapReduce在云上实现MapReduce12使用Amazon的ElasticMapReduce在云上实现MapReduce-12.1在EMR上通过mrjob来运行Hadoop12.1.1用EMR方便地创建云计算集群12.1.2使用mrjob启动EMR集群12.1.3AWS的EMR浏览器界面12使用Amazon的ElasticMapReduce在云上实现MapReduce-12.2在EMR上使用Spark来进行机器学习12.2.1编写机器学习模型12.2.2为Spark搭建一个EMR集群12.2.3在集群中运行PySpark作业12.3.1R系列集群12.3.2相关联的Hadoop工作12.3.3实例类型12使用Amazon的ElasticMapReduce在云上实现MapReduce-总结
精选推荐
销售心理学

销售心理学

[中国纺织出版社]

兰华

已完结当代文学

销售就是玩转情商

销售就是玩转情商

[中国纺织出版社]

王威

已完结当代文学

销售员情商实战训练

销售员情商实战训练

成功的销售需要高智商,更需要高情商。一个销售员的销售业绩,往往与他的情商成正比。本书从十个方面详细讲述了有效运用情商,提高销售业绩的方法和技巧。通过实际销售案例和销售心理学理论指导,以及实战点拨和情商拓展训练,帮助读者全方位、快速提高情商。故事性、多版块、碎片化的内容设置,有效降低读者阅读疲劳,提高阅读兴趣,不论是奔波在路上的销售小白,还是带领团队奋勇向前的销售经理,都能从中找到适合自己的销售软技巧。

刘军

已完结当代文学

让未来的你,感谢现在勇敢的自己

让未来的你,感谢现在勇敢的自己

[中国纺织出版社]

王介威

已完结当代文学

行为心理学入门(完全图解版)

行为心理学入门(完全图解版)

行为心理学入门(完全图解版)是以作者多来年的心理辅导和咨询数据为素材,对现实生活中的行为心理学应用进行了形象、深入、全面的论述和解读。本书与日本心理学图解书形式相同,浅显易读,有趣又益。

武莉

已完结当代文学

自制力:道理我都懂,为什么就是过不好人生

自制力:道理我都懂,为什么就是过不好人生

[中国纺织出版社]

邱开杰

已完结当代文学

能力与格局

能力与格局

[中国纺织出版社]

龙泽

已完结当代文学

羊皮卷

羊皮卷

[中国纺织出版社]

赵文武

已完结当代文学

组织领导力:组织高效运营与领导策略

组织领导力:组织高效运营与领导策略

[中国纺织出版社]

谢良鸿

已完结当代文学