读书笔记 – 数据驱动从方法到实践

数据源和Event模型的重要性 数据源很重要。若想把数据平台做好,数据源非常重要。如果我们从源头本身结构化,构化,下游就不需要跟着源头动,数据解析效率也会高很多。 用户行为事件模型很有效。规范并结构化用户行为之后,许多数据分析都会变得更容易。每个Event都是用户发生行为的一个快照,能够尽可能地还原现场。 大数据的概念 大:大数据的“大”强调宏观的“大”,而非一味追求数据量的“大”。 全:强调的“ … 继续阅读读书笔记 – 数据驱动从方法到实践

数据处理中提升性能的方法-引入并发但是避免同步

背景 只要存在数据库,就会有后台批量处理数据的需求,比如数据表备份、定期清理、数据替换、数据迁移,对于批量处理来说,往往会涉及大量的查询、过滤、归类、聚合计算,在批量脚本中直接查询数据库往往性能太低,甚至会因为一个大型的SQL导致数据库锁表出现线上事故,因此一般采用先导出到文件,在文件上计算然后再导入,比如: 1、使用mysql -e “select * from table&#822 … 继续阅读数据处理中提升性能的方法-引入并发但是避免同步