大数据时代总结
2018-04-14 13:26:57 79 举报
AI智能生成
登录查看完整内容
大数据时代总结
作者其他创作
大纲/内容
《大数据时代》总结
预测,是大数据的核心
大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种 机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数 学算法运用到海量的数据上来预测事情发生的可能性。
思维
小数据时代
随机采样
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量 的增加关系不大
当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了。在宏观 领域起作用的方法在微观领域失去了作用
全数据模式,样本=总体
大数据是指不用随机分析法这样的捷径,而 采用所有数据的方法
2.不是精确性,而是混杂性
允许数据不精确
案例:有一种简单的算法表现得很差,但当数据达10亿的时候,它变成 了表现最好的,准确率从原来的75%提高到了95%以上,例如sqoop
大数据的简单算法比小数据的复杂算法更有效
混杂性,不是竭力避免,而是标准途径
当数量规模变大的时候,确切的数量已经不那么重要 了
新的数据库设计
知道是什么就够了,没必要知道为什么
改变操作方式
改变探索方式
商业
一切皆可\"量化\"
数据的各种提取
从最不可能的地方提取
数据化,不是数字化
量化一切,是数据化的核心,各种指标数据化
数据创新
数据再利用
重组数据
随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大
可扩展数据
如果以某种方式收集的单一数据 集有多种不同的用途,它就具有双重功能。
数据的折旧值
数据用于基本用途的价值会减 少,但潜在价值却依然强大。
亚马逊等公司建立了复杂的模型来帮助自己分离有用和无用的数据。例如,如果客户浏览或购买了一本基于以往购买记录而推荐的书,电子商务公司就认为这项旧的购买记录仍然代表着客户的喜好。这样,他们就能够评价旧数据的有用性,并使模型的“折旧率”更具体。
数据废气
大的‘噪音’数据集中吸取教训
开放数据
估值数据
角色定位:数据、技术与思维的三足鼎立
价值链
第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是Twitter,它拥有 海量数据这一点是毫无疑问的,但是它的数据都通过两个独立的公司授权给别人使用。
做数据授权的公司,本身产生海量数据公司
第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了专业技能但并不一定拥有数据或提出数据创新性用途的才能。比方说,沃尔玛和Pop-Tarts这两 个零售商就是借助天睿公司(Teradata)的分析来获得营销点子,天睿就是一家大数据分析公 司。
发展专业的公司与做数据分析的公司合作
第三种是基于思维的公司。皮特·华登(Pete Warden),Jetpac的联合创始人,就是通过想 法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的 地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和 员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。
第三种类型是有着大数据思维的公司和个人。他们的优势在于,他们能先人一步发现机遇,尽管本身并不拥有数据也不具备专业技能。事实上,很可能正因为他们是外行人,不具备这些特点,他们的思维才能不受限制。他们思考的只有可能,而不考虑所谓的可行。
管理
风险
\"监控\"下生活
隐私二次利用
数据治理(在中国先别说分析等等多么的好,光治理好数据就是个水平,少数公司能做好的少)
预测与惩罚,不是因为“所做”,而是因为“将做”
画像
数据独裁
困境
掌控:责任与自由并举的信息管理
总结
0 条评论
回复 删除
下一页