第九周 深圳市模具厂应用 大数据 hadoop spark

2019-10-27 17:00:03

带着很对疑问,到了书城18楼,


1、centos 如何开启  8888|888|88|8080|80|22|21等等端口

2、建立一个能使用的大数据集群最好需要多少台服务器, 而且都是 centos 7.5 的吗?

3、区块链 和 我们学习的大数据中的 BlocK 有无联系, 64MB 一个 块, 还是128M一个块。


复习上周


image.png


发送心跳, 告诉 ZooKeeper ,  这个是有问题才动手的软件,  再由ZooKeePer 分配KafKA

producr 生产者产生数据, 记录放入 Kafka .   Topic 的创建, 写入多少条, 都由 ZooKeeper 管理。

 消费者, 也是有

KAFKA作为一个集群,  宕机后, 主节点宕机后无法消费, 由ZooKeeper负责重新选举。


zookeeper  安装  三种模式


image.png


/bin  目录下有很多脚本 , 

image.png


Myid 是不一样的, 每台机都要安装   ZooKEEPER ,  不同的 ID 

2888   仲裁通讯

3888   群首选举


每台服务器上都要启动一下,  每台机都需要启动

image.png


再看看  伪集群模式,    如果只有一台机器, 也可以配置  zoo1.cfg  ........    仅仅是端口改为不一样了  2181   3181   4181


image.png


启动, 一台机器, 也要启动三次  

image.png


不同端口模拟不同集群

image.png



image.png


image.png


image.png

image.png

一个领导者和多个跟随者的。



image.png

image.png

image.png

image.png


image.png


image.png


image.png


image.png


image.png


image.png



fluke   和 spark 都差不多, 原理还是结构spark ,   rdd  dij  


image.png


image.png

image.png



复习完成,  继续SPARK 的学习。


SPARK核心编程模型


Spark 数据运算核心机制:


image.png



RDD概述:


RDD: 弹性分布式数据集


RDD是 SPARK中重要的数据结构。

image.png

image.png

什么是  RDD  ,


顾名思义,从字面理解RDD就是 Resillient Distributed Dataset,即弹性分布式数据集。

它是Spark提供的核心抽象。

RDD在抽象上来讲是一种抽象的分布式的数据集。它是被分区的,每个分区分布在集群中的不同的节点上。从而可以让数据进行并行的计算

它主要特点就是弹性和容错性。

弹性:RDD的数据默认情况下存放在内存中的,但是在内存资源不足时,Spark会自动将RDD数据写入磁盘

容错性:RDD可以自动从节点失败中恢复过来。即如果某个节点上的RDD partition,因为节点故障,导致数据丢了,那么RDD会自动通过自己的数据来源重新计算该partition。

RDD来源:通常是Hadoop的HDFS,Hive 表等等;也可以通过Linux的本地文件;应用程序中的数组;jdbc(mysql 等);也可以是kafka、flume数据采集工具、中间件等转化而来的RDD。


image.png

image.png

image.png


总体都在RAM中运行的, 现在看看 CACHE ,  


image.png

image.png


image.png


image.png


image.png


不断的转化, 就是得到  DMG图,  TSK 何在一起就是   TSK site    ,  最终得到   TSK  scuhle 


image.png

image.png





image.png

image.png

image.png

image.png


image.png

image.png

image.png



image.png




下节课, 讲解  spark  读取  kafka 数据进行讲解














首页
产品
新闻
联系