互联网金融的结构化设计.pptx
大数据基础概念用5W1H了解大数据1. 为什么要研究大数据(WHY)2. 什么是大数据(WHAT)3. 哪里有大数据(WHERE)4. 大数据现在什么阶段(WHEN)5. 谁在做大数据(WHO)6. 大数据是一种方法(HOW)7. 大数据有哪些潜在价值(Value)8. 大数据有哪些关键的技术(Tachnology)目录能力向消费者转移数据竞争的压力大数据的激增 商业模式驱动社会在发生变革Google ,Facebook, 腾讯百度阿里彻底的改变了人们生活 你在读书,书在读你你在读书,书在读你数据是一种资产,成为商品构成成分、是一种资源数据是一种资产,成为商品构成成分、是一种资源4 土地 人口农业社会 资本、技术,机器,能源工业时代 用户、数据信息时代v全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年v每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年v推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年v每天亚马逊上将产生 6.3 百万笔订单v每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBvGoogle 上每天需要处理24PB 的数据v在web 2.0的时代,人们从信息的被动接受者变成了主动创造者UGC时代到来* Truthfulness, accuracy or precision, correctnessVolume多多Velocity快快Veracity垃圾垃圾*Variety杂杂Data at restTerabytes to exabytes of existing data to processData in motionStreaming data, milliseconds to seconds to respondData in many formsStructured, unstructured, text, multimediaData in doubtUncertainty due to data inconsistency& incompleteness, ambiguities, latency, deception, model approximations全新的计算时代业务发展业务发展-DAAS模式精髓模式精髓IT比业务反应更快!比业务反应更快!BIBI,分析,分析& &多变量测试多变量测试 太多噪音数据 事后诸葛 依靠猜测重-设计重-发布新-平台每年每季每月调调整、商品化整、商品化&it优优化,化,业务业务改改进进 手动&高成本 仅提供前5%最热门内容 专家偏见开发开发&QA &QA 太多项目 茅盾的优先级 昂贵批准批准& &部署研究部署研究 优先级问题 错过截止日期 与市场脱节系系统统自自动动升升级级使用群体智慧使用群体智慧少量少量IT参与参与实时实时自自动调节动调节用5W1H了解大数据1. 为什么要研究大数据(WHY)2. 什么是大数据(WHAT)3. 哪里有大数据(WHERE)4. 大数据现在什么阶段(WHEN)5. 谁在做大数据(WHO)6. 大数据是一种方法(HOW)7. 大数据有哪些潜在价值(Value)8. 大数据有哪些关键的技术(Tachnology)目录何为大?数据度量1Byte = 8 Bit1KB = 1,024 Bytes1MB = 1,024 KB = 1,048,576 Bytes1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes大数据的“大“红楼梦含标点87万字(不含标点853509字)每个汉字占两个字节:1汉字=16bit = 2*8位=2bytes1GB 约等于671部红楼梦1TB 约等于631,903 部1PB 约等于647,068,911部美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB )中国国家图书馆:2631万册1EB = 4000倍美国国会图书馆存储的信息量600美元的硬盘就可以存储全世界所有的歌曲MGI估计,全球企业2010 年在硬盘上存储了超过7EB(1EB 等于10 亿GB)的新数据,同时,消费者在PC 和笔记本等设备上存储了超过6EB 新数据专注于企业级大数据集群容量 约3200台服务器 物理CPU 30000核 内存 100TB 磁盘 36000块 存储容量 60PB阿里巴巴云梯一 数据规模(2012)集群负载 每天Job数 150,000+道 每天hive query数 6,000+ 每天扫描数据量 7.5PB 每天扫描文件数 4亿 存储利用率 80% CPU利用率65% 峰值80%阿里巴巴是数据信息流制造业用5W1H了解大数据1. 为什么要研究大数据(WHY)2. 什么是大数据(WHAT)3. 哪里有大数据(WHERE)4. 大数据现在什么阶段(WHEN)5. 谁在做大数据(WHO)6. 大数据能做什么方法(HOW)7. 大数据有哪些潜在价值8. 大数据有哪些关键的技术目录大数据约90%是机器数据13关系型数据、高度结构化、基于僵化模式财务记录、多维数据、数据计算月报,非实时事件时间序列非结构化数据,无预定义模式由所有 IT 系统生成,大量不同类型的格式巨量;快速导航和相关性最重要由人与人之间的互动而产生包括电子邮件、即时通信、语音、视频和文本 储存在集中式公司服务器、文件共享和桌面中机器产生的数据90%商业应用程序数据2%人为产生的数据8%互联网络Google机房硬件(几十万台服务器)几百万平米米几百个数据中心几百万平米米几百个数据中心用5W1H了解大数据1. 为什么要研究大数据(WHY)2. 什么是大数据(WHAT)3. 哪里有大数据(WHERE)4. 大数据现在什么阶段(WHEN)5. 谁在做大数据(WHO)6. 大数据是一种方法(HOW)7. 大数据有哪些潜在价值(Value)8. 大数据有哪些关键的技术(Tachnology)目录不断量化的宇宙Web1.0被动Web2.0主动碎片移动互联网随时随地云计算全部人口天体长度重量面积体积时间空间电流电压声音图像社会关系辐射能量信息引爆大数据的原因2023-4-2819461961197019902000 2003200820131960年代,数据与应用分离,数据库技术蓬勃发展,但重视事务处理2000年后,互联网公司开启数据分析挖掘新时代1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分1990年代,提出数据分析挖掘数据耦合时代数据分析时代数据库时代大数据时代从流程电子化到数据资产化1)数据更加丰富,有分析价值,从TB到PB2)分析工具更加强大,成本够低,MapReduce3)互联网商业上的成功,引起重视,麦肯锡报告数据驱动初始期-发展期-成长成熟期过去过去现在随机样本 全体数据精确性 混杂性因果关系 相关关系21数据成为资产缺少数据资产不足以谈缺少数据资产不足以谈产业;缺少产业;缺少数据思维不足以语未来数据思维不足以语未来数据资产评估模型数据资产评估模型公司公司的价值与其的价值与其数据规模、活性数据规模、活性及其解释、运用及其解释、运用的能力成正比的能力成正比价值价值 = f(颗粒度,(颗粒度,维度,规模,维度,规模, 活活性,关联度)性,关联度)x f(应用)(应用)数据成为资产数据成为资产不不同行业数据资产特征对比同行业数据资产特征对比话说电子商务公司话说电子商务公司“ “银行银行” ”,银行搞电子商务;搜索巨头做,银行搞电子商务;搜索巨头做电信业务,电信运营商搞应用商店。电信业务,电信运营商搞应用商店。Integration & Analytics (DW, MDM,)The unseen information (Big Data)GovernanceOperational systems信息社会的发展&企业内部管理的变革C端用户应用的网络发展:l目录式(yahoo)-搜索式(google)-分享式(FaceBook)-推荐式(个性化信息服务平台)B端企业内部管理变革l小农生产-小规模生产-大规模生产-大规模按需定制-大规模个性化生产-大规模协同生产 l营销管理变革 大众-分众-微众-个性化 粗放-精细化社会变革:l(1)强调消费者已逐渐取得交易主权;l (2)消费者需求差异日趋扩大;l (3)数据增加、竞争加剧、互联网改变传统行业加快用5W1H了解大数据1. 为什么要研究大数据(WHY)2. 什么是大数据(WHAT)3. 哪里有大数据(WHERE)4. 大数据现在什么阶段(WHEN)5. 谁在做大数据(WHO)6. 大数据是一种方法(HOW)7. 大数据有哪些潜在价值(Value)8. 大数据有哪些关键的技术(Tachnology)目录各IT厂家纷纷快速跟进大数据技术p “大数据”对信息处理设施和技术提出了更高的要求 p 全球主流IT厂家纷纷加大在大数据领域的投入,行业价值快速增长大数据产业相关企业一览大数据产业相关企业一览图图关键技术结构化数据库IT基础设施即服务数据操作基础设施数据分析基础设施虚拟化应用广告/媒体应用商务智能分析与展示日志数据应用数据即服务用5W1H了解大数据1. 为什么要研究大数据(WHY)2. 什么是大数据(WHAT)3. 哪里有大数据(WHERE)4. 大数据现在什么阶段(WHEN)5. 谁在做大数据(WHO)6. 大数据是一种方法(HOW)7. 大数据有哪些潜在价值(Value)8. 大数据有哪些关键的技术(Tachnology)目录大数据涉及的关键技术需求技术描述关键技术海量数据分布式处理Hadoop 生态系统针对大量数据进行分布式处理的系统框架实时数据处理Streaming Data流计算引擎非结构化数据处理文本处理技术;自然语言理解; 多媒体处理技术文本内容分词与分析;图像、音视频分析可视化交互界面通过交互式可视化界面辅助用户进行分析交互式可视化探索分析技术智能数据分析大规模机器学习技术计算机模拟人类学习行为,包括特征提取、图形生成等保护隐私数据与信息个体的对应关系等安全技术高效存储和管理大规模数据数据存储备份技术、数据放置和调度技术、数据溯源存储、放置、调度大规模的数据数据隐私保护数据隐私防范保护措施与数据安全技术大数据采集处理大数据分析存储、组织、管理增强的全方位客户视图安全/智能扩展数据仓库扩充运营分析和优化大数据探究IBM大数据的五大关键用例查找、可视化和理解所有大数据,从而改进决策制定整合额外的内部和外部信息源,从而扩展现有客户视图(MDM、CRM 等)分析各种机器数据以改进业务成果实时降低风险、检测欺诈、监控电子安全集成大数据和数据仓库功能以提高运营效率大数据分析的广泛应用Insurance360 View of Domain or SubjectCatastrophe ModelingFraud & AbuseProducer Performance AnalyticsAnalytics SandboxBankingOptimizing Offers and Cross-sellCustomer Service and Call Center EfficiencyFraud