金融大数据信用风险控制项目解决方案说明书.docx
-
资源ID:1754224
资源大小:102.48KB
全文页数:11页
- 资源格式: DOCX
下载积分:5金币
快捷下载

账号登录下载
微信登录下载
三方登录下载:
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
金融大数据信用风险控制项目解决方案说明书.docx
金融大数据信用风险控制项目解决方案说明书XX科技股份有限公司编制目录一、项目存在问题及需解决问题31. 存在问题32. 需解决问题3二、解决方案51. 分布式文件存储(HDFS)62. 分布式数据库(HBASE)73. 分布式计算框架(MaPRedUCe)74. 分布式消息订阅(Kafka)7三、开发范围81. 用户注册82. 用户登录93. 权限管理94. 系统管理105. 运维管理106. API117. 页面展示11一、项目存在问题及需解决问题1 .存在问题数据采集问题数据存储问题数据预处理问题数据挖掘问题可视化展羽问题2 .需解决问题数据采集“金融大数据信用风险控制平台”首先需要收集各种金融数据,它们可能是结构化的,也可能是半结构化或非结构化的;既可能来自银行内部的各业务系统,也可能由外部提供;既可以是静态的(如属性数据),也可以是动态的(如行为数据而金融数据采窠产品就是根据业务需要,将这些数据采集到''金融大数据信用风险控制项目”中。数据存储HadoOP集群通过将数据分配到多个集群节点上并进行并行处理,因此尤为适合对大数据的存储和分析。Hadoop集群通过添加节点数量来有效的扩展集群,因此具有极好的可扩展性;HadOOP软件都是开源的,也不必购买昂贵的高档服务器,因此具有很好的性价比。Hado叩集群将数据分片发送至多个节点保存,因此具有极高的容错性。数据覆处理采集到金融数据来自多种数据源,大多存在着不完整性和不一致性,无法直接用于数据挖掘或严重影响数据挖掘的效率。因此在进行数据挖掘之前,通过使用数据预处理工具,灵活对原始数据的清理、变换、集成等处理,可以减少挖掘所需数据量,缗短所需时间,并极大提高数据挖掘的质量。数据挖掘数据挖掘是通过分析数据、从大量数据中寻找其潜在规律的技术。利用预测、关联、分类、聚类、时序分析等技术,数据挖掘可以从海量的、不完全的、有噪声的、模楣的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。可视化展现数据挖掘得到的结果,往往数据量巨大、关联关系复杂、维度多以及双向互动需求等。二、解决方案1.解决方案架构系统开发平台使用Hadoop大数据开发平台。Hadoop是一个高度可扩展的存储平台,可以存储和分发横跨数百个并行操作的廉价的服务器数据集群。能扩展到处理大量的数据,能提供成百上千TB的数据节点上运行的应用程序。HadooP能够有效的在几分钟内处理TB级的数据。相比关系型数据库管理系统更具有优势。它适用于任何规模的非结构化数据持续增长的企业,将帮助电信运营商持续提高用户体验。系统采用面向对象的软件设计方法,把整个系统看作是多个离散对象的组合。系统设计时,首先把业务流程分解成功能模块及其业务实体对象,然后根据业务流程分析对于这些业务实体对象的操作方法,形成业务处理对象,最后把各个功能模块关联起来,形成系统。软件设计是一个将需求转变为软件的过程,系统通过逐步求精使得设计陈述逐渐接近于源代码。系统程序采用MVC的设计思想,将展现逻辑、控制逻辑、业务处理逻辑分离。系统采用参数化的设计思想,定义和管理系统的实体及配置,调整实体以适应外部变化。系统采用J2EE技术保证程序逻辑实现的平台无关性,并便于安装部署。系统采用AJAX技术,提高客户操作的交互性,保证实际使用的易用性。系统采用echarts可视化框架实现数据展示。1.关键技术a)分布式文件存储(HDFS)I1.DFS(HadoopDistributedFi1.eSystem),作为Goog1.eFi1.eSystem(GFS)的实现,是HadooP项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(1.argeDataSet)的应用处理带来了很多便利。b)分布式数据库(HBASE)HBaSe是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Goog1.e论文“Big1.ab1.e:一个结构化数据的分布式存储系统"。就像BigtabIe利用了GOOg1.e文件系统(Fi1.eSyStem)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtab1.e的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBaSe基于列的而不是基于行的模式。c)分布式计算框架(MaPRedUCe)MaPRedUCe是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个MaP(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。d)分布式消息订阅(Kafka)Kafka是由Apache软件基金会开发的一个开源流处理平台,由Sca1.a和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Had。P的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。三、开发范围业务管外人M校校2.用户登录系统监承4.系统管理*务人黄管典“W-5.运维管理大6.API7.页面展示数据展示模块流程图8.