大数据时代总结
2018-04-14 13:26:57 82 举报
AI智能生成
大数据时代总结
作者其他创作
大纲/内容
预测,是大数据的核心
大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种 机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数 学算法运用到海量的数据上来预测事情发生的可能性。
思维
1.不是随机样本,全体数据
小数据时代
随机采样
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量 的增加关系不大
当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了。在宏观 领域起作用的方法在微观领域失去了作用
全数据模式,样本=总体
大数据是指不用随机分析法这样的捷径,而 采用所有数据的方法
2.不是精确性,而是混杂性
允许数据不精确
案例:有一种简单的算法表现得很差,但当数据达10亿的时候,它变成 了表现最好的,准确率从原来的75%提高到了95%以上,例如sqoop
大数据的简单算法比小数据的复杂算法更有效
<br>混杂性,不是竭力避免,而是标准途径
当数量规模变大的时候,确切的数量已经不那么重要 了
新的数据库设计
3.不是因果关系,而是相关关系
知道是什么就够了,没必要知道为什么
改变操作方式
改变探索方式
商业
一切皆可"量化"
数据的各种提取
从最不可能的地方提取
数据化,不是数字化
量化一切,是数据化的核心,各种指标数据化
数据创新
数据再利用
重组数据
<br>随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在<br>一起时,重组总和本身的价值也比单个总和更大
可扩展数据
如果以某种方式收集的单一数据 集有多种不同的用途,它就具有双重功能。
数据的折旧值
数据用于基本用途的价值会减 少,但潜在价值却依然强大。<br>
亚马逊等公司建立了复杂的模型来帮助自己分离有用和无用的数据。例如,如果客户浏览<br>或购买了一本基于以往购买记录而推荐的书,电子商务公司就认为这项旧的购买记录仍然代表<br>着客户的喜好。这样,他们就能够评价旧数据的有用性,并使模型的“折旧率”更具体。
数据废气
大的‘噪音’数据集中吸取教训
开放数据
估值数据
角色定位:数据、技术与思维的三足鼎立
价值链
<font color="#c41230">第一种是基于数据本身的公司</font>。这些公司拥有大量数据或者至少可以收集到大量数据,却<br>不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是Twitter,它拥有 海量数据这一点是毫无疑问的,但是它的数据都通过两个独立的公司授权给别人使用。<br>
做数据授权的公司,本身产生海量数据公司
<font color="#c41230">第二种是基于技能的公司</font>。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了<br>专业技能但并不一定拥有数据或提出数据创新性用途的才能。比方说,沃尔玛和Pop-Tarts这两 个零售商就是借助天睿公司(Teradata)的分析来获得营销点子,天睿就是一家大数据分析公 司。
发展专业的公司与做数据分析的公司合作
<font color="#c41230">第三种是基于思维的公司</font>。皮特·华登(Pete Warden),Jetpac的联合创始人,就是通过想 法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的 地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和 员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。
第三种类型是有着大数据思维的公司和个人。他们的优势在于,他们能先人一步发现机<br>遇,尽管本身并不拥有数据也不具备专业技能。事实上,很可能正因为他们是外行人,不具备<br>这些特点,他们的思维才能不受限制。他们思考的只有可能,而不考虑所谓的可行。
管理
风险
"监控"下生活
隐私二次利用
数据治理(在中国先别说分析等等多么的好,光治理好数据就是个水平,少数公司能做好的少)
预测与惩罚,不是因为“所做”,而是因为“将做”
画像
数据独裁
困境
掌控:责任与自由并举的信息管理
总结
非常全面的介绍大数据,结合我自己的专业流派,更好研究思想与实现。读完后不像某些书没有任何想法留下,你肯定能记下一些思想。
0 条评论
下一页