第八周 10-20 大数据继续学习 运用在 模具展览中

2019-10-20 17:00:46

今天 10-20 ,还是  1小时 车程, 最终停车过来, 已经 9点 了 。


上午  zookeepper   ,  下午 spark ,     


10:30 开始, 之前一直在讨论 



image.png


image.png

HDFS  高可用 是使用  ZOOKEEPER  

image.png


这个还是对应的  KAFKA里面也能用 Zookeeper


image.png




image.png


image.png


image.png




image.png


image.png



image.png


下面的是卢老师讲的

image.png


image.png

image.png

image.png


image.png

image.png


image.png


image.pngimage.png

image.png


image.png

image.png


image.png


image.png


image.png


image.png

image.png


image.png

-------- 下午开始  ,复习 zookeeper 的内容, 仅仅是一种服务包, 并不是语言, spark 也是一个运用包。


主要是为了, 等待出问题的时候, 才进行重新选领导,以及重新广播的应急办法就是  zookeeper 。


image.png


大数据组件原理总结-Hadoop、Hbase、Kafka、Zookeeper、Spark


Hadoop原理

  分为HDFSYarn两个部分。HDFSNamenodeDatanode两个部分。


HBase原理

Hbase是列存储数据库。其存储的组织结构就是将相同的列族存储在一起,因此得名的。


Zookeeper原理

Zookeeper是一个资源管理库,对节点进行协调、通信、失败处理、节点损坏的处理等,是一个无中心设计,主节点通过选举产生。


Kafka原理
Kafka是分布式发布-订阅消息系统。


Spark原理

spark 可以很容易和yarn结合,直接调用HDFSHbase上面的数据,和hadoop结合。



image.png


image.png

image.pngimage.png

image.png

image.png

image.png


应用场景:集群管理

Hbase Master选举则是zookeeper经典的使用场景;

Storm集群管理

image.png


image.png


Zookeeper通过维护一个分布式目录数据结构,实现分布式协调服务

利用Zookeeper有序目录的创建和删除,实现分布式共享锁。


image.png


image.png



image.png



image.png




image.png

------------下午  4:20 开始学习  Spark     2009年诞生于apache   一站式的批处理,实时流处理



深圳塑胶模具厂,深圳市模具厂,深圳模具厂,深圳模具,深圳塑胶模具


image.png

Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。


使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。


Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。

与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。



Spark 4大特性

image.png



image.png


image.png


image.png

image.png


image.png


深圳塑胶模具厂,深圳市模具厂,深圳模具厂,深圳模具,深圳塑胶模具

image.png


image.png


image.png





首页
产品
新闻
联系