在一个通过数据驱动的商业环境中,企业组织或者技术组织结构一般分为以下 3 个逻辑板块。从底层到上层分别是 Data engineering(数据工程),Data sciences(数据科学)和 Decision sciences(决策科学)。 ▌下层数据平台:通用性平台为主,完整解决方案,开源解决方案 最底层是工程性的工作,主要指对于数据底层的工程性技术解决方案,例如对原始数据进行清洗、验证和纠正,数据储存和调取。在这一层有很多的开源解决方案和系统集成服务商。 这一步的目的是收集和整理大量数据,把它变成便于数据科学家使用的方式。大部分企业或者工程师把 80% 的时间花在了这一步 。美国财富杂志前几天公布的数据显示,美国企业每年在大数据服务上的花费是 40 亿美金左右,其中 40% 花在了数据整合和清洗上。可以说,整个数据工程在时间和花费上都占据了很重要的位置。 ▌中层算法和数据呈现:通用性算法接口,行业专业知识,开源解决方案 处于中间层的是数据科学,这可能是大家最常听到的一个领域。现在很热的人工智能、深度学习,都属于这一层。这一层的作用是通过数据建立起对某个问题的模型。比如说,通过历史数据建立起天气预报模型,或者通过大量病理数据建立起疾病的预测或者诊断模型。 开源社区的发展让很多非常复杂的算法模型变得非常容易使用,极大地促进了数据科学的发展。数据科学家可以很快地验证预测模型,并使用到实际的商业项目中。目前的解决方案主要是开源方案,一些商业 API 以及企业内部的私有数据计算框架等等。 ▌上层商业决策:深入的行业专业知识,商业洞察,内部决策和外部咨询 第三层是决策科学,它是数据的最顶层,也是实际产生商业价值的。比如我们预测明天要下雨,这个预测的价值在于,得到这个信息的商家第二天可以把伞放到更明显的地方,以增加购买量。这样就产生了商业价值。 这只是一个简单的例子,实际情况要复杂很多。比如,很多游戏中,机器可以根据玩家玩游戏的时间、模式,来预测用户是否对游戏感兴趣,一旦发现玩家对游戏的兴趣正在减弱,就会自动进行一些奖励措施,比如奖励装备、奖励点数来留住玩家,都是商业决策的范畴。 ▲ 大数据的产生和利用,天生就和商业决策联系紧密。 / 04 /大数据企业的商业模式:在咨询和软件服务中徘徊 |