大数据采集与处理
作者: 张雪萍30.66万字58人 正在读
已完结现代当代当代文学
目录 (278章)
倒序
正文
第1章 大数据基础第1章 大数据基础-1.1 大数据概念及特征第1章 大数据基础-1.2 大数据采集与处理基本流程1.2.1 大数据采集1.2.2 大数据预处理1.2.3 大数据处理第1章 大数据基础-1.3 大数据分析第1章 大数据基础-1.4 大数据应用1.4.1 大数据应用行业分类1.4.2 大数据分析在商业上的应用第1章 大数据基础-习题第2章 开源Hadoop2.1.1 Hadoop简介2.1.2 Hadoop起源及发展史2.1.3 Hadoop发行版本2.1.4 Hadoop特性第2章 开源Hadoop-2.2 Hadoop生态系统2.2.1 HDFS2.2.2 MapReduce2.2.3 Hive2.2.4 ZooKeeper2.2.5 Flume2.2.6 Kafka2.2.7 Spark2.2.8 Storm2.2.9 Flink2.2.10 YARN第2章 开源Hadoop-2.3 Hadoop的安装与使用2.3.1 环境准备2.3.2 单机模式2.3.3 伪分布式(1)2.3.3 伪分布式(2)2.3.4 完全分布式安装第2章 开源Hadoop-习题第3章 大数据采集第3章 大数据采集-3.1 数据采集与大数据采集3.1.1 数据采集3.1.2 大数据采集及数据来源3.1.3 传统数据采集与大数据采集的区别3.1.4 大数据采集分类第3章 大数据采集-3.2 大数据采集方法3.2.1 数据库采集3.2.2 系统日志采集3.2.3 网络数据采集3.2.4 传感器采集3.2.5 众包采集第3章 大数据采集-3.3 常用采集工具及平台3.3.1 Flume3.3.2 Fluentd3.3.3 Logstash3.3.4 Chukwa3.3.5 Scribe3.3.6 Splunk3.3.7 Scrapy第3章 大数据采集-3.4 网络爬虫3.4.1 网络爬虫分类3.4.2 网络爬虫发展现状3.4.3 网络爬虫使用技术3.5.1 项目准备3.5.2 架构设计3.5.3 代码实现3.5.4 结果展示第3章 大数据采集-习题第4章 日志采集4.1.1 系统日志分类4.1.2 日志分析系统架构及日志采集方式4.1.3 日志采集应用场景与日志分析应用场景4.1.4 日志采集系统关键技术4.2.1 Scribe概述4.2.2 Scribe全局配置4.2.3 Scribe的存储类型配置4.3.1 Chukwa概述4.3.2 Chukwa架构4.3.3 Chukwa数据收集应用4.4.1 Kafka概述4.4.2 Kafka架构4.4.3 Kafka日志采集第4章 日志采集-4.5 Flume4.5.1 Flume概述4.5.2 Flume架构4.5.3 Flume的优势第4章 日志采集-4.6 实战4.6.1 Flume安装部署4.6.2 环境测试4.6.4 采集文件到HDFS第4章 日志采集-习题第5章 大数据预处理第5章 大数据预处理-5.1 为什么要进行数据预处理第5章 大数据预处理-5.2 大数据预处理总体架构第5章 大数据预处理-5.3 大数据预处理方法5.3.1 数据清洗5.3.2 数据集成5.3.3 数据转换5.3.4 数据消减第5章 大数据预处理-5.4 ETL工具Kettle5.4.1 ETL介绍5.4.2 Kettle介绍(1)5.4.2 Kettle介绍(2)5.4.2 Kettle介绍(3)5.4.2 Kettle介绍(4)5.4.2 Kettle介绍(5)5.4.2 Kettle介绍(6)5.4.3 Kettle安装与配置(1)5.4.3 Kettle安装与配置(2)5.4.3 Kettle安装与配置(3)5.5.1 基于Python的数据预处理5.5.2 基于Hadoop生态圈的Kettle应用(1)5.5.2 基于Hadoop生态圈的Kettle应用(2)5.5.2 基于Hadoop生态圈的Kettle应用(3)第5章 大数据预处理-习题第6章 大数据存储6.1.1 大数据存储面临的问题6.1.2 大数据存储方式6.1.3 大数据存储技术路线第6章 大数据存储-6.2 HDFS6.2.1 HDFS架构6.2.2 HDFS存储机制6.2.3 NameNode和DataNode工作机制6.3.1 NoSQL数据库概述6.3.2 HBase(1)6.3.2 HBase(2)6.3.2 HBase(3)6.3.3 MongoDB(1)6.3.3 MongoDB(2)6.3.4 Redis(1)6.3.4 Redis(2)6.4.1 ElasticSearch概述6.4.2 ElasticSearch基本概念6.4.3 ElasticSearch工作原理6.4.4 ElasticSearch存储机制6.4.5 ElasticSearch分布式存储6.4.6 ElasticSearch安装与运行第6章 大数据存储-6.5 实战6.5.1 主从模式搭建6.5.2 Sentinel模式搭建6.5.3 Cluster模式搭建第6章 大数据存储-习题第7章 MapReduce第7章 MapReduce-7.1 概述7.2.1 MapReduce模型7.2.2 MapReduce函数7.2.3 MapReduce资源管理7.2.4 MapReduce生命周期管理7.3.1 MapReduce工作流程7.3.2 MapReduce工作原理第7章 MapReduce-7.4 深入Shuffle过程7.4.1 Map端Shuffle7.4.2 Reduce端Shuffle第7章 MapReduce-7.5 实战7.5.1 任务准备7.5.4 编写main函数7.5.5 核心代码包7.5.6 运行代码第7章 MapReduce-习题第8章 Hive数据仓库8.1.1 数据仓库概念8.1.2 数据仓库的结构8.1.3 传统数据仓库的问题8.1.4 数据仓库的发展8.2.1 Hive简介8.2.2 Hive与传统数据库的对比8.2.3 Hive系统架构8.2.4 Hive体系结构8.2.5 Hive工作原理8.2.6 Hive的数据模型8.2.7 Hive基本操作8.3.1 Impala简介8.3.2 Impala架构8.3.3 Impala执行过程8.3.4 Impala与Hive比较8.3.5 Impala基本操作第8章 Hive数据仓库-8.4 SparkSQL8.4.1 SparkSQL简介8.4.2 SparkSQL系统架构8.4.3 HiveContext和SQLContext的运行过程8.4.4 Shark和SparkSQL8.4.5 SparkSQL基本操作8.5.1 大数据仓库设计案例8.5.2 YouTuBe项目实战第8章 Hive数据仓库-习题第9章 流计算第9章 流计算-9.1 流计算简介9.1.1 流计算的概念及特点9.1.2 流计算的适用范围与应用场景第9章 流计算-9.2 SparkStreaming9.2.1 SparkStreaming概述9.2.2 SparkStreaming基本原理9.2.3 SparkStreaming运行架构9.2.4 实战第9章 流计算-9.3 Storm9.3.1 Storm概述9.3.2 Storm基础架构9.3.3 Storm运行流程9.3.4 实战第9章 流计算-9.4 Flink9.4.1 Flink概述9.4.2 Flink运行架构9.4.3 实战9.5.1 任务目标9.5.2 实验环境9.5.3 数据准备9.5.4 业务(任务)实现9.5.5 结果展示第9章 流计算-习题第10章 Pregel图计算10.1.1 图结构数据10.1.2 传统图计算解决方案的不足10.1.3 图计算通用软件10.1.4 Pregel简介10.2.1 有向图和顶点10.2.2 顶点之间的消息传递10.2.3 Pregel计算过程10.3.1 Pregel的C++API10.3.2 消息传递机制和Combiner10.3.3 Aggregator机制10.3.4 拓扑改变10.3.5 输入和输出10.4.1 Pregel的执行过程10.4.2 容错性10.4.3 Worker10.4.4 Master10.4.5 Aggregator10.5.1 单源最短路径10.5.2 PageRank算法实现及比较10.6.1 Hama介绍10.6.2 Hama体系结构10.6.3 Hama实现PageRank算法第10章 Pregel图计算-习题第11章 大数据安全技术及应用第11章 大数据安全技术及应用-11.1 大数据安全概述第11章 大数据安全技术及应用-11.2 大数据安全威胁形式11.2.1 大数据基础设施安全威胁11.2.2 大数据生命周期安全威胁11.2.3 大数据隐私安全威胁第11章 大数据安全技术及应用-11.3 大数据安全关键路径11.3.1 大数据性能安全保障(1)11.3.1 大数据性能安全保障(2)11.3.1 大数据性能安全保障(3)11.3.2 大数据安全关键技术第11章 大数据安全技术及应用-11.4 大数据安全管理及应用11.4.1 大数据安全管理11.4.2 大数据安全应用11.5.1 安全性能案例——如何自行搭建大数据计算平台11.5.2 生命周期安全分析案例——大数据内网的硬件漏洞安全分析第11章 大数据安全技术及应用-习题第12章 行业大数据采集与处理12.1.1 电商行业大数据概述12.1.2 京东大数据采集与处理12.1.3 某电商网站完整离线数据分析案例12.2.1 煤炭行业大数据概述12.2.2 煤炭行业大数据采集与处理12.2.3 煤炭行业大数据平台案例第12章 行业大数据采集与处理-12.3 教育大数据采集与处理12.3.1 总体技术架构12.3.2 Hadoop与Spark集成平台12.3.3 数据采集方案设计12.3.4 数据清洗方案设计12.3.5 数据存储方案设计12.3.6 学生学业预警系统需求分析12.3.7 系统体系结构设计第12章 行业大数据采集与处理-12.4 医疗大数据采集与处理12.4.1 医疗大数据概述12.4.2 医疗行业大数据采集与处理12.4.3 医疗大数据采集与处理案例第12章 行业大数据采集与处理-12.5 电信大数据采集与处理12.5.1 电信行业大数据概述12.5.2 电信行业大数据采集与处理12.5.3 电信行业大数据案例第12章 行业大数据采集与处理-12.6 交通大数据采集与处理12.6.1 交通大数据概述(1)12.6.1 交通大数据概述(2)12.6.2 交通行业大数据采集与处理(1)12.6.2 交通行业大数据采集与处理(2)12.6.3 交通大数据案例(1)12.6.3 交通大数据案例(2)12.6.3 交通大数据案例(3)第12章 行业大数据采集与处理-习题反侵权盗版声明
精选推荐
领导力法则
[中国纺织出版社]
陆禹萌
已完结当代文学
销售心理学
[中国纺织出版社]
兰华
已完结当代文学
销售就是玩转情商
[中国纺织出版社]
王威
已完结当代文学
销售员情商实战训练
成功的销售需要高智商,更需要高情商。一个销售员的销售业绩,往往与他的情商成正比。本书从十个方面详细讲述了有效运用情商,提高销售业绩的方法和技巧。通过实际销售案例和销售心理学理论指导,以及实战点拨和情商拓展训练,帮助读者全方位、快速提高情商。故事性、多版块、碎片化的内容设置,有效降低读者阅读疲劳,提高阅读兴趣,不论是奔波在路上的销售小白,还是带领团队奋勇向前的销售经理,都能从中找到适合自己的销售软技巧。
刘军
已完结当代文学
让未来的你,感谢现在勇敢的自己
[中国纺织出版社]
王介威
已完结当代文学
行为心理学:华生的实用心理学课
[中国纺织出版社]
(美)约翰·华生著.倪彩
已完结当代文学
行为心理学入门(完全图解版)
行为心理学入门(完全图解版)是以作者多来年的心理辅导和咨询数据为素材,对现实生活中的行为心理学应用进行了形象、深入、全面的论述和解读。本书与日本心理学图解书形式相同,浅显易读,有趣又益。
武莉
已完结当代文学
自卑与超越
《自卑与(全译插图典藏版)》是个体心理学研究领域的著作,也是人本主义心理学先驱阿尔弗雷德·阿德勒的很好著作。阿德勒的学说以“自卑感”与“创造性自我”为中心,并强调“社会意识”。全书立足个人心理学的观点,从教育、家庭、婚姻、伦理、社交等多个领域,以大量的实例为论述基础,阐明了人生意义的真谛,帮助人们克服自卑、不断超自己,正确对待职业,正确理解社会与性。本书直接促进了亲子教育、人格培养、婚姻与爱情、职业生涯、家庭建设、人际关系等诸多领域的长足发展,成为人们了解心理学的经典读物。
(奥)阿尔弗雷德·阿德勒
已完结当代文学
自制力:道理我都懂,为什么就是过不好人生
[中国纺织出版社]
邱开杰
已完结当代文学