标签搜索

云计算与大数据

wehg489
2026-01-04 / 0 评论 / 2 阅读 / 正在检测是否收录...

第一部分:云计算相关考点

核心概念

  1. 云计算定义与特征:按需自助服务、广泛的网络访问、资源池化、快速弹性、可计量的服务。
  2. 服务模式:这是重中之重。
    · IaaS:基础设施即服务。理解提供计算、存储、网络等基础资源。考点常涉及:云服务器、云存储(如对象存储、块存储)、虚拟网络。
    · PaaS:平台即服务。提供应用程序开发、运行和管理的环境。考点重点:云数据库服务(如RDS)、大数据平台、中间件服务。这是与数据库工程师最相关的部分。
    · SaaS:软件即服务。直接提供应用软件。
  3. 部署模式:
    · 公有云:第三方面向公众提供。
    · 私有云:为单一组织构建。
    · 社区云:特定社区共享。
    · 混合云:混合两种或以上模式,关注数据和应用的可移植性。

与数据库技术的结合(重点!)

  1. 云数据库:
    · 概念:部署和虚拟化在云计算环境中的数据库。
    · 特性:高可扩展性、高可用性、多租户、按使用付费。
    · 服务类型:
    · 关系型云数据库:如AWS RDS/Aurora,阿里云RDS/PolarDB。考点:读写分离、自动备份、一键扩展、高可用架构。
    · NoSQL云数据库:如键值型(Redis云服务)、文档型(MongoDB云服务)、列族型(HBase云服务)、图数据库云服务。
  2. 数据库上云策略:
    · 迁移评估:兼容性、性能、成本、安全性评估。
    · 迁移流程:结构迁移、数据迁移(全量+增量)、应用迁移、验证与切换。
    · 云上数据库运维:监控、备份恢复、性能优化、安全策略(IAM、加密、网络隔离)与传统运维的区别。
  3. 虚拟化与容器技术:
    · 虚拟化:是云计算的基石,实现资源隔离与池化。
    · 容器化:Docker、Kubernetes。考点:数据库的容器化部署、有状态应用管理、持久化存储。

第二部分:大数据相关考点

核心概念

  1. 大数据5V特征:Volume、Velocity、Variety、Value、Veracity。
  2. 大数据处理流程:
    · 数据采集 → 数据存储 → 数据处理与分析 → 数据可视化/应用。
  3. 大数据技术生态:以Hadoop/Spark为核心的生态圈。

核心技术(重点!)

  1. 分布式存储:
    · HDFS:架构(NameNode, DataNode)、容错机制、数据块、写入/读取流程。
  2. 分布式计算:
    · MapReduce:编程模型(Map, Shuffle, Reduce阶段)、优缺点。
    · Spark:核心概念(RDD弹性分布式数据集)、比MapReduce快的原理(内存计算、DAG执行引擎)。了解Spark SQL。
  3. NoSQL数据库:为什么会出现?CAP/BASE理论。
    · 键值数据库:Redis,适用场景(缓存、会话存储)。
    · 文档数据库:MongoDB,数据结构(BSON),适用场景(内容管理、用户画像)。
    · 列族数据库:HBase,与HDFS关系, RowKey设计原则,适用场景(海量明细查询、时序数据)。
    · 图数据库:Neo4j,适用场景(社交关系、推荐、风控)。

与数据库技术的结合(重点!)

  1. 数据仓库与大数据平台:
    · 传统数据仓库 vs. 大数据平台(Hive、HBase、Spark SQL)。
    · Hive:本质是将SQL转换为MapReduce/Spark任务。理解其数据模型、表类型(内部表、外部表)、分区与分桶。
    · 数据湖概念:存储原始格式数据的存储库,支持结构化、半结构化、非结构化数据。
  2. 数据集成与ETL:
    · 如何将传统关系型数据库(Oracle, MySQL)中的数据同步到大数据平台(使用Sqoop, Flume, Kafka等工具)。
  3. 大数据环境下的数据库设计考量:
    · 数据模型从“以事务为中心”转向“以分析为中心”。
    · 关注数据冗余、反范式化设计以提高查询性能。
    · 数据分区策略(时间分区、范围分区等)对查询效率的影响。

第三部分:常考题型与重点关联

  1. 选择题/填空题:
    · 云服务模式的区分。
    · 大数据5V特征。
    · CAP/BASE理论。
    · 常见NoSQL数据库与其适用场景的匹配。
    · Hadoop核心组件(HDFS, YARN, MapReduce)的功能。
  2. 简答题/案例分析题:
    · 场景设计:给定一个高并发、海量数据的业务场景(如电商大促、物联网日志分析),要求设计技术架构。回答中需包含:
    · 是否采用云计算?用哪种服务模式(PaaS/IaaS)和部署模式?
    · 数据存储选型:关系型数据库用于核心交易,NoSQL(如Redis)用于缓存,HBase/HDFS用于海量日志。
    · 数据处理:使用Spark进行实时/离线分析。
    · 数据库高可用与扩展方案:云数据库的读写分离、分库分表策略。
    · 新旧技术对比:比较传统Oracle RAC架构与基于云数据库(如PolarDB)实现高可用的优劣。
    · 迁移方案:设计一个将本地MySQL数据库迁移到云RDS的方案,并说明关键步骤和风险点。

备考建议

  1. 抓大放小:重点理解 “概念”、“区别”、“适用场景”。
  2. 建立关联:将云/大数据技术与传统数据库知识(如事务、索引、范式)关联思考。例如,在分布式环境下,传统的事务(ACID)如何演变?索引设计有何不同?
  3. 关注案例:多研究阿里云、AWS、腾讯云等主流厂商的数据库产品文档和解决方案,这些常是考题的素材来源。
  4. 结合考纲:务必以最新的官方指定教程和考试大纲为最终依据,本整理是核心考点的提炼。

总结:对于数据库系统工程师,云计算和大数据的核心是 “数据库技术如何在新的计算和存储范式下演进与应用”。务必掌握 云数据库服务、NoSQL数据库选型 和 Hadoop/Spark生态的基本原理。

0

评论 (0)

取消
歌曲封面
0:00