职业经历
工作经历
2024年07月 — 2025年01月
技术,数据,数据分析师
主要职责与工作成果: 参与客户业务数据分析项目:在项目经理指导下,协助处理和分析来自多个行业客户的结构化数据(如用户行为、交易记录等)。 数据预处理与清洗:熟练运用 SQL(Hive)和Python (Pandas)进行原始数据的提取、清洗、转换和集成 (ETL),确保数据质量符合分析要求。 辅助分析与可视化:运用基础统计学知识对处理后的数据进行分析,使用Power BI/Tableau等工具构建交互式 仪表板和数据报告,可视化关键业务指标与趋势。 文档撰写与维护:整理项目过程中的数据定义、处理逻辑及分析发现,撰写规范的技术与业务文档,保障项目知 识库的完善。 团队协作:积极参与部门日常会议和项目复盘,与技术、业务部门同事沟通协作,确保任务按时交付。
教育经历
应用统计
2023年09月 — 2026年06月
项目经历
2025年01月 — 2025年01月
职责与技术栈:负责对问题进行建模,利用非支配排序遗传算法建立模型,寻求最优解。利用 MATLAB进行算法实 现。并将相关结果进行可视化。 建模与算法选型(解题思路):负责核心建模工作,选用并实现了NSGA-II多目标优化算法,通过参数调优和约束 处理,有效求解工艺优化问题。 技术实现(解决方案):决策变量(工艺参数)采用实数编码。通过多次试验,对算法的关键参数(如种群大小、交叉率、变异率)进行了调优,以平衡算法的收敛速度和解集的分布性。 约束处理:将一些物理上不可能或危险的操作条件(如温度超过催化剂耐受极限)作为约束条件写入算法,确保生 成的解均可行。 结果可视化:精心设计了二维散点图和三维曲面图来可视化帕累托前沿。二维散点图:X轴为产率,Y轴为选择性。 每个点代表一个工艺方案,清晰的“前沿弧线” 直观展示了两个目标之间的权衡关系。决策者可以根据实际需求, 在此弧线上选择最合适的操作点(例如,若当前需求是保质量,则选择选择性高的点;若需求是提产量,则选择产率高的点)。三维曲面图:增加了关键控制变量(如温度)作为第三维度,用颜色映射其数值,从而揭示控制变量与优 化目标之间的潜在关系。 任务结果:NSGA-II算法高效地搜索到了分布均匀、收敛性良好的帕累托最优解集,清晰揭示了产率与选择性之间 的定量权衡关系。该模型清晰的逻辑、完整的实现和出色的可视化,帮助我们获得了湖北省三等奖的荣誉。
2025年01月 — 2025年12月
项目目标:1、设计出适用于大体量轨迹流数据的、能够自由调整频繁度阈值的、能应对多样性需求的频繁模式挖 掘算法;2、提出新颖的、能够支持海量用户场景的、高实时性的轨迹流频繁模式并发处理机制;3、实现大体量 轨迹流模式的高扩展的、可部署的、高实用性的分布式存储。 担任职责: 数据预处理:负责大规模轨迹流数据的清洗、格式转换及去除噪点等预处理任务,确保数据的质量和一致性,为上 层挖掘算法提供可靠的输入。编写空间判断函数,过滤掉偏离的坐标点。根据前后点计算瞬时速度,设定合理阈值 (如120km/h)过滤速度异常点。对因信号丢失产生的短暂轨迹断裂,尝试用线性插值法进行平滑补点。 地理标签语义库构建:将轨迹坐标输入到高德地图API中以获得它的地理标签,以此辅助挖掘轨迹流中的模式信 息。设计了“GeoHash网格缓存”策略。将城市划分为多个GeoHash网格,预先批量请求每个网格内中心点的地 理标签并存入Redis缓存。当实时数据流入时,首先将坐标映射到GeoHash网格,然后优先从缓存中获取标签, 将API调用次数降低了85%,极大提升了性能并节约了成本。 生成不同的数据集进行对比:协助设计与实施大规模轨迹流数据挖掘算法的性能评估实验,负责生成多样化的测试 数据集、收集并统计分析在不同数据集中数据流入、数据挖掘、数据切片等方面的效率。 文献收集与整理:针对轨迹流挖掘、高并发处理、分布式存储等领域相关技术及学术进展进行调研,整理形成文献 综述报告与技术方案对比文档,为项目技术选型提供参考依据。
TA 的技能服务
该人才共 1 项技能服务,可在 技能服务 中搜索「乔新格」查看。