云计算与大数据 - (≧∇≦)你又回来了

权威定义：云计算是一种将可伸缩、弹性、共享的物理和虚拟资源池以按需自服务的方式供应和管理，并提供网络访问的模式。
• 狭义：云计算是一种提供资源的网络，使用者可以随时获取“云”上的资源，按需求量使用，并且可以看成是无限扩展的，只要按使用量付费就可以。
• 是以一种方便的使用方式和服务模式，通过互联网按需访问资源池模型（例如网络、服务器、存储、应用程序和服务），以快速和最少的管理工作为用户提供服务

1、关键特征：
• 广泛的网络接入
• 可测量的服务
• 多租户
• 按需自服务
• 快速的弹性和可扩展性
• 资源池化
2、其它关键特征：
• 虚拟化技术
• 可靠性高
• 性价比高

1、按云部署模式和云应用范围分类：
1）公有云
• 一般是被一个云计算服务提供商所拥有，该组织将云计算服务销售给公众，公有云通常在远离客户建筑物的地方托管（一般为云计算服务提供商建立的数据中心）
2）社区云
• 云的基础设施被一些组织所共享，并为一个有共同关注点的社区服务。可以是该组织或某个第三方负责管理。
3）私有云
• 云的基础设施是为一个客户单独使用而构建的，因而提供对数据、安全性和服务质量的最有效控制。私有云可部署在企业数据中心中，也可部署在一个主机托管场所，被一个单一的组织拥有或租用。
4）混合云
• 云的基础设施由以上两种或两种以上的云（私有、社区或公有）组成。

2、按云计算的服务层次和服务类型分类：
1）基础设施即服务（Infrastructure as a Service,IaaS)
• 提供虚拟化的计算资源，如虚拟机、存储、网络和操作系统。其核心技术是虚拟化。
2）平台即服务（Platform as a Service,PaaS)
• 为开发、测试和管理软件应用程序提供按需开发的环境。其核心技术是分布式并行计算。PaaS实际上是指将软件研发的平台作为一种服务。
3）软件即服务（Software as a Service,SaaS)
• 通过互联网提供按需软件付费应用程序，云计算提供商托管和管理软件应用程序，并允许用户连接到应用程序并通过互联网访问应用程序。客户可以自己定制、配置、组装来得到满足自身需求的软件系统。

云关键技术
• 虚拟化技术
• 分布式数据存储
• 并行计算
• 运营支撑管理

• 大数据的特征一般采用5V来描述：
1、多样性（Variety）：数据类型繁多。除了以往的以文本为主的结构化数据，非结构化数据越来越多，如音频，视频，图片，地理位置信息等。
2、速度（Velocity）：处理速度快。一方面是数据的增长速度快，另一方面是要求数据访问、处理、交付的速度快，通常要求具有时效性。是大数据区别于传统数据挖掘的最显著特征。
3、大量（Volume）：数据体量巨大。聚合在一起供分析的数据规模非常庞大。
4、价值（Value）：价值密度低。大数据的本质是需要从海量数据中获取具有高价
值的数据。
5、真实性（Veracity)：是指数据是来自于各种、各类信息系统网络以及网络终端的行为或痕迹。

大数据处理流程
• 从大数据生命周期的角度看，大数据处理的基本流程包括：数据采集、数据分析和数据解释

DB（数据库）：是 “操作记录系统” ，负责 “干当前活”。

DW（数据仓库）：是 “历史分析平台” ，负责 “看过去事、谋未来策”。

在多维数据模型中，数据被视为数据立方体（Data Cube），由维（Dimensions）和度量（Measures）组成。维是观察数据的角度（如时间、地点、产品），度量是要分析的具体数值（如销售额、数量）。
度量有时也被称为事实

数据仓库（DataWarehouse, DW），是建立决策支持系统的重要技术手段，是建立决策支持系统的基础。数据仓库的数据具有四个基本特征：面向主题的、集成的、不可更新的、随时间不断变化
面向主题的
通俗说：数据按“分析什么”来整理，而不是“谁在用”。

比如，你想分析“销售情况”，传统业务系统里销售数据可能分散在订单、财务、物流等多个系统里。而数据仓库会把所有跟销售相关的数据（卖了什么、谁买的、什么时候卖的、利润多少……）都抽出来，整理在一起，专门给你分析“销售”这个主题用。

集成的
通俗说：把各处乱糟糟的数据“翻译”成统一的语言，拼成一张完整的图。

公司里不同部门的数据往往“各说各话”：财务系统里商品编码是 A001，销售系统里叫 SP-001；有的用“元”做单位，有的用“万元”。数据仓库会把这些数据全部清洗、统一格式和含义，让它们能互相“对话”，形成一个整体。

不可更新的
通俗说：存进去就像“拍照片”，只读不改，保证历史真实。

数据仓库里的数据一旦存进去，基本就不修改了。它记录的是过去某个时刻的“快照”，比如2023年1月1日的销售额。这样，你分析历史趋势时，数据不会变来变去，保证结果可靠。

随时间不断变化的
通俗说：数据都带着“时间标签”，能看趋势、比变化。

数据仓库里的数据天然包含时间维度，会持续不断地把新的历史数据加进来（比如每天新增前一天的销售数据）。这样你就能分析“过去三年销量如何增长”“今年比去年哪个月更好”这类问题。

DM (Data Mining，数据挖掘) 的学科渊源。数据挖掘是从机器学习 (Machine Learning) 演变发展而来的重要技术领域，它利用机器学习算法从大量数据中发现模式和知识。

分类和聚类区别
分类是“按已知标签分”，聚类是“按未知相似性聚”。

数据挖掘五大核心任务

一句话核心区别
分类 vs 聚类：分类是 “按已知标签分”（有老师教）；聚类是 “按相似性聚”（自己琢磨）。
关联规则：找 “如果…那么…” 的搭配规律。
异常检测：找 “少数派” 和 “捣蛋鬼”。
回归：预测一个具体的数字（比如价格、销量），而不是类别。