刘聪聪

职业经历

1精通数据仓库 Hive,Spark_sql ,数据库 Mysql 2精通 java,sql 语言,掌握数据结构算法 3精通 sparkStreaming,Flink 实时数据开发 4精通 hadoop,spark,kafka,hbase 等大数据框架 5精通 Linux 系统

工作经历

数据仓库工程师 · 北京联合永道软件股份有限公司

2023年06月 — 2025年03月

技术,数据,数据仓库工程师

1.参数与据数开据发开工发程需师求分析、架构设计和概要设计; 2.负责数据开发需求的详细设计、核心代码实现以及相关文档编写; 3.完成开发内部单元测试、提交测试、Bug修复、部署。 4.负责对组内成员的任务分配

数据仓库工程师 · 北京万德奥星软件有限公司

2021年05月 — 2023年05月

技术,数据,数据仓库工程师

1 基于 hadoop/spark 技术,完成大数据平台架构设计与开发 2 负责日常数据检测和电信核心项目组的数据开发 3 基于市场和用户数据,建立对市场用户的洞察,帮助公司发现潜在问题 4 负责建立数据模型和指标体系,量化分析方法论

数据开发工程师 · 北京积木互联科技有限公司

2020年09月 — 2021年05月

技术,数据,数据开发工程师

1. 负责 dws->dwd 层数据 etl 清洗处理和优化数据 2. 负责完成公司日常提供的各项指标开发 3. 负责维护开发完成后的任务,以及修改数据中bug 4 部署修复bug后的脚本保证每天的任务调度

教育经历

渤海大学

计算机科学与技术

2020年01月 — 2022年01月

项目经历

航天三院大数据系统

2023年05月 — 2025年03月

内容: 该项目是将不同部门的数据抽取过来,进行数据质检,数据开发,完成各个部分提供的数据指标,最终将开发的指标数据发送的大数据大屏上,完成领导校验考核技术要点 1 根据需求进行数据的建模 2 通过 datax 进行数据抽取到 hive的 ods层(贴源层) 3 数据开发有离线数据开发和实时数据开发, 离线:是用的 flink_sql 进行数据加工处理实时:使用 flinkstreaming 进行数据加工处理 4数据加工完成后到 clickhouse 进行数据展示业绩: 航天三院的大数据系统从0到1都是我个人搭建,能为系统提供数据支持。除去源头数据的抽取,其他分层的数据处理的 jar 包,都是我个人编写,并且完成特殊功能的设置,比如数据质检。最终实现大数据的每一层的清理汇总分离。根据客户需求提炼宽表,得到所需要的主题数据,实现业务系统对数据的直接分发,最终将数据从数据仓库抽出,为客户提供数据决策支撑

中国电信核心项目(数仓离线项目)

2022年06月 — 2023年05月

内容: 该项目是对电信大数据平台中精品模型进行维护与开发,主要从不同平台的数据采集到数仓中,进行 ETL清洗,之后根据项目的需求进行开发,最终将数据提供给电信集团进行使用技术要点: 1 运维人员将数据采集到 dws层 2 通过 spark-sql 进行 ETL 数据清洗 3 根据需求提供的方案,通过 spark_sql 进行自主开发业绩: 本系统是基于 hadoop-spark 的数据处理系统,完成数据仓库分层的任务,提炼数据在 dwm 层形成宽表,用于后期的数据开发,开发完成指标数据帮助进行客户业务决策

中国电信云公司数据治理

2021年05月 — 2022年06月

内容: 该项目主要对电信公司数据迁移到 hadoop 大数据环境中,根据各个部门提出需求进行数据开发,将开发的数据提供给集团公司进行参考使用技术要点: 离线技术描述: 1通过 datax 收集源端(pg 数据库)数据,将数据直接保存到 HDFS 中 2 spark_sql 对数据进行预处理清洗 3使用 Hive 进行数仓的建模 4通过 spark_sql 对数据进行指标分析统计 5将指标数据利用 datax 发送到 MySQL 服务器用于可视化的指标存储实时技术描述:: 1通过 canal 处理 binlog 日志数据发送到 kafka中 (这一步一般是运维处理,开发是直接对接 kafka) 2 spark streaming 对接 kafka 对数据的实时处理 3 根据业务逻辑的判断将数据放入 hbase ,作为历史数据进行判断 4 将处理结果通过接口发送给局方业绩: 该项目是 hadoop-spark 大数据计算系统,来自不同部门的需求,完成数据仓库不同的分层任务,将最终开发的指标数据,提供给客户完成业务决策(该项目与上面电信项目类似)

大藤峡智能一体化系统

2020年09月 — 2021年05月

围绕大藤峡水利枢纽工程的功能定位和全生命周期管理需求,构建“智慧大藤峡”平台,加强大藤峡信息化基础设施、数据资源整合建设。本项目的数据源是来自大藤峡的各个业务系统的数据,经过汇总放到我们的数据仓库中,在数据汇总过程中的数据要经过 ETL 抽取、转换、加载进行大量的数据处理。数据入库后进行分层管理。技术要点离线技术描述: 1 负责使用 sqoop 进行结构化数据抽取并完成数仓各层 ETL 流程处理工作和设计 ETL 流程。 2 使用 Hive ,进行各个系统的指标开发 3 将开发的指标通过 sqoop 发送到 mysql 指标数据库实时技术描述: 1.通过 sparkStreaming 对接 kafka 数据,并根据业务逻辑进行处理 2. sparkStreaming 完成数据处理,放入 HDFS中(放入建好的模型中), 3. 通过 sqoop 传输到 mysql 指标库中

职业经历

工作经历

教育经历

项目经历

TA 的技能服务

选择头像