标签搜索

云计算与大数据

wehg489
2026-01-04 / 0 评论 / 5 阅读 / 正在检测是否收录...

权威定义:云计算是一种将可伸缩、弹性、共享的物理和虚拟资源池以按需自服务的方式供应和管理,并提供网络访问的模式。
• 狭义:云计算是一种提供资源的网络,使用者可以随时获取“云”上的资源,按需求量使用,并且可以看成是无限扩展的,只要按使用量付费就可以。
• 是以一种方便的使用方式和服务模式,通过互联网按需访问资源池模型(例如网络、服务器、存储、应用程序和服务),以快速和最少的管理工作为用户提供服务

1、关键特征:
• 广泛的网络接入
• 可测量的服务
• 多租户
• 按需自服务
• 快速的弹性和可扩展性
• 资源池化
2、其它关键特征:
• 虚拟化技术
• 可靠性高
• 性价比高

1、按云部署模式和云应用范围分类:
1)公有云
• 一般是被一个云计算服务提供商所拥有,该组织将云计算服务销售给公众,公有云通常在远离客户建筑物的地方托管(一般为云计算服务提供商建立的数据中心)
2)社区云
• 云的基础设施被一些组织所共享,并为一个有共同关注点的社区服务。可以是该组织或某个第三方负责管理。
3)私有云
• 云的基础设施是为一个客户单独使用而构建的,因而提供对数据、安全性和服务质量的最有效控制。私有云可部署在企业数据中心中,也可部署在一个主机托管场所,被一个单一的组织拥有或租用。
4)混合云
• 云的基础设施由以上两种或两种以上的云(私有、社区或公有)组成。

2、按云计算的服务层次和服务类型分类:
1)基础设施即服务(Infrastructure as a Service,IaaS)
• 提供虚拟化的计算资源,如虚拟机、存储、网络和操作系统。其核心技术是虚拟化。
2)平台即服务(Platform as a Service,PaaS)
• 为开发、测试和管理软件应用程序提供按需开发的环境。其核心技术是分布式并行计算。PaaS实际上是指将软件研发的平台作为一种服务。
3)软件即服务(Software as a Service,SaaS)
• 通过互联网提供按需软件付费应用程序,云计算提供商托管和管理软件应用程序,并允许用户连接到应用程序并通过互联网访问应用程序。客户可以自己定制、配置、组装来得到满足自身需求的软件系统。

云关键技术
• 虚拟化技术
• 分布式数据存储
• 并行计算
• 运营支撑管理

• 大数据的特征一般采用5V来描述:
1、多样性(Variety):数据类型繁多。除了以往的以文本为主的结构化数据,非结构化数据越来越多,如音频,视频,图片,地理位置信息等。
2、速度(Velocity):处理速度快。一方面是数据的增长速度快,另一方面是要求数据访问、处理、交付的速度快,通常要求具有时效性。是大数据区别于传统数据挖掘的最显著特征。
3、大量(Volume):数据体量巨大。聚合在一起供分析的数据规模非常庞大。
4、价值(Value):价值密度低。大数据的本质是需要从海量数据中获取具有高价
值的数据。
5、真实性(Veracity):是指数据是来自于各种、各类信息系统网络以及网络终端的行为或痕迹。

大数据处理流程
• 从大数据生命周期的角度看,大数据处理的基本流程包括:数据采集、数据分析和数据解释
mkxoq4ar.png

mkxos2ek.png
DB(数据库):是 “操作记录系统” ,负责 “干当前活”。

DW(数据仓库):是 “历史分析平台” ,负责 “看过去事、谋未来策”。

在多维数据模型中,数据被视为数据立方体(Data Cube),由维(Dimensions)和度量(Measures)组成。维是观察数据的角度(如时间、地点、产品),度量是要分析的具体数值(如销售额、数量)。
度量有时也被称为事实

数据仓库(DataWarehouse, DW),是建立决策支持系统的重要技术手段,是建立决策支持系统的基础。数据仓库的数据具有四个基本特征:面向主题的、集成的、不可更新的、随时间不断变化
面向主题的
通俗说:数据按“分析什么”来整理,而不是“谁在用”。

比如,你想分析“销售情况”,传统业务系统里销售数据可能分散在订单、财务、物流等多个系统里。而数据仓库会把所有跟销售相关的数据(卖了什么、谁买的、什么时候卖的、利润多少……)都抽出来,整理在一起,专门给你分析“销售”这个主题用。

集成的
通俗说:把各处乱糟糟的数据“翻译”成统一的语言,拼成一张完整的图。

公司里不同部门的数据往往“各说各话”:财务系统里商品编码是 A001,销售系统里叫 SP-001;有的用“元”做单位,有的用“万元”。数据仓库会把这些数据全部清洗、统一格式和含义,让它们能互相“对话”,形成一个整体。

不可更新的
通俗说:存进去就像“拍照片”,只读不改,保证历史真实。

数据仓库里的数据一旦存进去,基本就不修改了。它记录的是过去某个时刻的“快照”,比如2023年1月1日的销售额。这样,你分析历史趋势时,数据不会变来变去,保证结果可靠。

随时间不断变化的
通俗说:数据都带着“时间标签”,能看趋势、比变化。

数据仓库里的数据天然包含时间维度,会持续不断地把新的历史数据加进来(比如每天新增前一天的销售数据)。这样你就能分析“过去三年销量如何增长”“今年比去年哪个月更好”这类问题。

mkxpk6j8.png
DM (Data Mining,数据挖掘) 的学科渊源。数据挖掘是从 机器学习 (Machine Learning) 演变发展而来的重要技术领域,它利用机器学习算法从大量数据中发现模式和知识。

分类和聚类区别
分类是“按已知标签分”,聚类是“按未知相似性聚”。

数据挖掘五大核心任务
mkxq957b.png
一句话核心区别
分类 vs 聚类:分类是 “按已知标签分”(有老师教);聚类是 “按相似性聚”(自己琢磨)。
关联规则:找 “如果…那么…” 的搭配规律。
异常检测:找 “少数派” 和 “捣蛋鬼”。
回归:预测一个 具体的数字(比如价格、销量),而不是类别。

0

评论

博主关闭了当前页面的评论
歌曲封面
0:00