什么是数据分析
根据业务场景,通过对产品底层数据库内各个库、各个表的数据统计,进行业务分析,寻找发生事情的本质原因。
什么是数据库
按照数据结构来组织、存储和管理数据的仓库
什么是数据分析库
根据业务场景、分析目标,对各个数据库的字段进行抽取、关联、聚合为全新的数据表结构,用于数据分析日常工作,保证其完整性、准确性、时效性。
数据分析步骤
收集问题
整理数据
提出假设
验证假设
找出问题
提出方案
提出假设-验证问题-找出问题 这一步骤或许需要重复N次,直到趋向于真相水落石出。
步骤1.收集问题
根据日常产品运营中,对于产品不满意的地方,可内部发起、也可以通过用户反馈、市场反馈以及竞品分析来寻找并收集问题。
步骤2.整理数据
- 熟悉产品底层架构,数据库表结构,根据问题来确定分析目标
- 确定分析时需要的数据库表以及相应重要字段
- 确定分析时需要的数据维度和数据质量
- 将各个数据库表内重要分析字段聚合在数据分析库中
- 将数据分析库中每条数据重要字段进行检查其完整性、异常性,保证数据准确、完整。
步骤3.提出假设
根据经验判断问题的原因,可假设多个原因,并对各个原因分析需要的数据字段、维度进行整理。
步骤4.验证假设
- 根据提出的假设,对应建立多个数据分析模型
- 将数据分析库中每条数据各跑一遍分析模型
- 得出多个数据分析模型的结果
- 根据提出的假设,分析结果内容
步骤5.找出问题
根据分析结果内容,对标假设,寻找出问题原因,有时会有多个,再根据优先级/重要程度进行排序,得出事情根本问题
步骤6.提出方案
将数据分析结果与运营部门进行沟通,制定解决方案
Python 聚合数据
以下代码通过对用户表、充值表、消费表进行聚合并创建新的数据分析表,使用PyMongo高级聚合方法
1 | # 实例化用户表 |
Python 整理数据
以下代码通过对数据分析表中重要字段进行清洗和修复,使用Python基本循环+判断方法
1 | # 实例化统计表 |