农业高科技大数据技术知识:Storm的核心组件和编程模型是什么样的?简单信息技术提供八达娱乐,新利娱乐平台产品设计,加工贸易等业务欢迎广大客商前来洽谈业务合作。
新利娱乐平台

农业高科技大数据技术知识:Storm的核心组件和编程模型是什么样的?简单信息技术

来源:八达娱乐 | 时间:2018-08-12

  代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、azkaban/oozie任务调度。

  一句话总结:将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结果。

  Storm用来实时处理数据,特点:低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口,便于开发。

  (storm实时流处理,每秒可处理数万条消息;hadoop批处理,HDFS和MapReduce处理大量数据通常需要几分钟到几小时)

  Storm处理的数据保存在内存中,源源不断;Hadoop处理的数据保存在文件系统中,一批一批。

  Mapper/Reduce:开发人员中的两种角色,一种是服务器开发、一种是客户端开发

  Spout/Bolt:开人员中的两种角色,一种是服务器开发、一种是客户端开发

  Storm用来实时计算源源不断产生的数据,如同流水线生产一样。加米谷大数据培训中心整理分享。

  从海量日志中分析出特定的数据,并将分析的结果存入外部存储器用来辅佐决策。

  2)Supervisor(从节点):负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。---通过配置文件设置当前supervisor上启动多少个worker。worker的数量根据端口号来的!

  3)Worker(进程):运行具体处理组件逻辑的进程(其实就是一个JVM)。Worker运行的任务类型只有两种,一种是Spout任务,一种是Bolt任务。

  5)Zookeeper(分布式协调服务) :保存任务分配的信息、心跳信息、元数据信息。

  2)Spout:在一个topology中获取源数据流的组件。 通常情况下spout会从外部数据源中读取数据,然后转换为topology内部的源数据。

  3)Bolt:接受数据然后执行处理的组件,用户可以在其中执行自己想要的操作。

  4)Tuple:一次消息传递的基本单元,理解为一组消息就是一个Tuple。