第九周 深圳市模具厂应用 大数据 hadoop spark
带着很对疑问,到了书城18楼,
1、centos 如何开启 8888|888|88|8080|80|22|21等等端口
2、建立一个能使用的大数据集群最好需要多少台服务器, 而且都是 centos 7.5 的吗?
3、区块链 和 我们学习的大数据中的 BlocK 有无联系, 64MB 一个 块, 还是128M一个块。
复习上周
发送心跳, 告诉 ZooKeeper , 这个是有问题才动手的软件, 再由ZooKeePer 分配KafKA
producr 生产者产生数据, 记录放入 Kafka . Topic 的创建, 写入多少条, 都由 ZooKeeper 管理。
消费者, 也是有
KAFKA作为一个集群, 宕机后, 主节点宕机后无法消费, 由ZooKeeper负责重新选举。
zookeeper 安装 三种模式
/bin 目录下有很多脚本 ,
Myid 是不一样的, 每台机都要安装 ZooKEEPER , 不同的 ID
2888 仲裁通讯
3888 群首选举
每台服务器上都要启动一下, 每台机都需要启动
再看看 伪集群模式, 如果只有一台机器, 也可以配置 zoo1.cfg ........ 仅仅是端口改为不一样了 2181 3181 4181
启动, 一台机器, 也要启动三次
不同端口模拟不同集群
一个领导者和多个跟随者的。
fluke 和 spark 都差不多, 原理还是结构spark , rdd dij
复习完成, 继续SPARK 的学习。
SPARK核心编程模型
Spark 数据运算核心机制:
RDD概述:
RDD: 弹性分布式数据集
RDD是 SPARK中重要的数据结构。
什么是 RDD ,
顾名思义,从字面理解RDD就是 Resillient Distributed Dataset,即弹性分布式数据集。
它是Spark提供的核心抽象。
RDD在抽象上来讲是一种抽象的分布式的数据集。它是被分区的,每个分区分布在集群中的不同的节点上。从而可以让数据进行并行的计算
它主要特点就是弹性和容错性。
弹性:RDD的数据默认情况下存放在内存中的,但是在内存资源不足时,Spark会自动将RDD数据写入磁盘
容错性:RDD可以自动从节点失败中恢复过来。即如果某个节点上的RDD partition,因为节点故障,导致数据丢了,那么RDD会自动通过自己的数据来源重新计算该partition。
RDD来源:通常是Hadoop的HDFS,Hive 表等等;也可以通过Linux的本地文件;应用程序中的数组;jdbc(mysql 等);也可以是kafka、flume数据采集工具、中间件等转化而来的RDD。
总体都在RAM中运行的, 现在看看 CACHE ,
不断的转化, 就是得到 DMG图, TSK 何在一起就是 TSK site , 最终得到 TSK scuhle
下节课, 讲解 spark 读取 kafka 数据进行讲解