网站首页> 文章专栏> 基于spark2.4.4风电场数据的实时故障诊断和预测
基于spark2.4.4风电场数据的实时故障诊断和预测
路人王 天津 2020-03-03 155 0 0

作者: 王一宁

1.环境配置方案:【CDH-5/6】或【Ambari+HDP】企业产线

Service hadoop01 hadoop02 hadoop03 HDFS NameNode DateNode DataNode HBase HMaster、HRegionServer HRegionServer HRegionServer
Hive Hive Hive Hive
Flume Flume Flume Flume
Kafka Kafka Kafka Kafka
YARN ResourceManager NodeManager NodeManager
Spark Master worker worker
Zookeeper Zookeeper Zookeeper
MySQL MySQL

2.服务器要求:阿里云云服务器或虚拟机三台

阿里服务器:我考虑不去买,所以尽可能自己的win上配置,有问题好解决
1.Hadoop01, 4核16G , centos7.6
2.Hadoop02, 2核8G, centos7.6
3.Haddop03, 2核8G, centos7.6
虚拟机配置:
centos7.6 centos7.6 centos7.6 mini版本镜像
2G 2G 2G
30G 30G 30G
2核 2核 2核
2线程 2线程 2线程
我的电脑是12G内存,虚拟机总内存6G,配置不高,基本可以投入无恙,试验过。
共计100G磁盘,千万别立即分配,选择预分配,否则你的电脑会立即少100G,应该选择用多少分配多少,

3.环境任务

第一天:
配置好服务器之间的免密、防火墙、网卡、阿里yum源依赖包
如果选择了企业生产线CDH或者Ambari+HDP 这个软件大肌群,占用空间非常大大约10G,几乎涵盖了bigdata所有生态,还有监控,很炫酷
我自己搭建过这些环境,很费力,踩了一周的坑,最后机器跑不动!!!!!!
所以我建议用什么亲自安装,在后面我会列出用到的技术。。

第二天:整理需求分析,拿到相应的数据【风电场数据(振动数据),我手里有scada数据,但是会缺少清洗数据这一过程】

根据以往的论文,我们分析几项需求即可, 如:风光电机组的月功率,最大功率,最少功率等等,也就是【峰值,俏度值】,利用一些算法找出风电机组的类型,和风电机组的具体位置,故障类型。 具体位置可以对接百度的或者高德地图的接口,给相应的风机打上最近的地点的标签
需求很多,也好分析,我们抓住几个重点
所有的需求都需要拿到数据后才能整
主要任务是:把实时的数据实时展示,越过红线的数据在大数据可视化汇总进行报警

预警:我的想法就是向天气预报一样给出下个月或者以后的预测,根据离线分析给出模型值

第三天:分析,清洗数据【老师的振动数据】

第四天:根据业务逻辑,数据处理

第五天:离线数据处理结果存入mysql,想要实时展示的数据存入Redis集群,hbase集群

第六天:数据展示利用百度的Echarts,springmvc,mybatis,hibernate,springboot

最后:撰写论文,也可以作为毕业论文,编写文档,按照新颖型专利要求申请

技术难点:实时数据?

1.模拟从nginx生成日志的log,数据来源利用脚本生成指定的数据,三台机器利用flume互相采集,对接kafuka集群

如:将hadoop02, hadoop03中Flume数据采集到hadoop01中,而且hadoop02和hadoop03的flume配置文件大致相同

2.撰写python脚本,读入历史数据,模拟实时数据流,利用flume互相采集,对接kafka集群

如:将hadoop02, hadoop03中Flume数据采集到hadoop01中,而且hadoop02和hadoop03的flume配置文件大致相同
使用的核心技术:
大数据:SparkCore,SparkStreaming,SparkSQL,MLLIb,图计算,hadoop的HDFS文件系统,flume,hive,hbase,kafka sparkstring,sparksql,
前端:springmvc,或者servlet, 服务器采用tomcat8.5 后台:mybatis
为了减少相关的配置,我建议springboot 简化前后台,页面可以用html或者jsp

主要编程语言:java,scala(spark主要用到),python(用来编写一些脚本)

评论

评论  分享  打赏