【Book】大数据时代生活

本文为《大数据时代生活》Viktor Mayer-Schönberger的读书笔记。

真正的革命并不在于分析数据的机器，而在于数据本身和我们如何运用数据。
大数据的核心就是预测。
第一个转变就是，在大数据时代，我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机采样。
第二个改变就是，研究数据如此之多，以至于我们不再热衷于追求精确度。
第三个转变因前两个转变而促成，即我们不再热衷于寻找因果关系。
数据化意味着我们要从一切太阳底下的事物中汲取信息，甚至包括很多我们以前认为和“信息”根本搭不上边的事情。
因为数据量极为庞大，最后做出决策的将是机器而不是人类自己
认为样本选择的随机性比样本数量更重要，这种观点是非常有见地的。
随机采样不适合考察子类别的情况。因为一旦继续细
随机采样不适合考察子类别的情况。因为一旦继续细分，随机采样结果的错误率会大大增加。
随机采样方法并不适用于一切情况，因为这种调查结果缺乏延展性，即调查得出的数据不可以重新分析以实现计划之外的目的。
大数据是指不用随机分析法这样的捷径，而采用所有数据的方法
混乱，简单地说就是随着数据的增加，错误率也会相应增加。
混乱还可以指格式的不一致性，因为要达到格式一致，就需要在进行数据处理之前仔细地清洗数据，而这在大数据背景下很难做到。
在萃取或处理数据的时候，混乱也会发生。因为在进行数据转化的时候，我们是在把它变成另外的事物。
虽然如果我们能够下足够多的工夫，这些错误是可以避免的，但在很多情况下，与致力于避免错误相比，对错误的包容会带给我们更多好处。
大数据的简单算法比小数据的复杂算法更有效
错误并不是大数据固有的特性，而是一个亟需我们去处理的现实问题，并且有可能长期存在
略有瑕疵的答案并不会伤了商家的胃口，因为他们更看重高频率
淘宝消费物价指数（TCPI）
知道是什么就够了，没必要知道为什么。
相关关系是无法预知未来的，他们只能预测可能发生的事情。但是，这已经极其珍贵了。
当数据点以数量级方式增长的时候，我们会观察到许多似是而非的相关关系。毕竟我们还处于考察相关关系的初期，所以这一点需要我们高度重视。
在大数据时代，通过建立在人的偏见基础上的关联物监测法已经不再可行，因为数据库太大而且需要考虑的领域太复杂。
大数据的相关关系分析法更准确、更快，而且不易受偏见的影响。
建立在相关关系分析法基础上的预测是大数据的核心。
在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是，通过找出新种类数据之间的相互联系来解决日常需要。
收集和分析数据的花费比出现停产的损失小得多。
与相关关系一样，因果关系被完全证实的可能性几乎是没有的，我们只能说，某两者之间很有可能存在因果关系。
就是因为不受限于传统的思维模式和特定领域里隐含的固有偏见，大数据才能为我们提供如此多新的深刻洞见。
这说明在远在信息数字化之前，对数据的运用就已经开始了。如今我们经常把“数字化”和“数据化”这两个概念搞混，但是对这两个概念的区分实际上非常重要。
“数据化”吧——这是指一种把现象转变为可制表分析的量化形式的过程。
数字化指的是把模拟数据转换成用0和1表示的二进制码，这样电脑就可以处理这些数据了。
计量和记录一起促成了数据的诞生，它们是数据化最早的根基。
数字化带来了数据化，但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据，和数据化有本质上的不同。
数据话的书籍意味着可以阅读外,还能进行检索等操作
这些书籍是数据化了的，不只是数字化。
数据化的书籍意味着可以阅读外,还能进行检索等操作
“现实挖掘”这里指的是通过处理大量来自手机的数据，发现和预测人类行为。
有了大数据的帮助，我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件，我们会意识到本质上世界是由信息构成的。
美国的专业数据经纪人，如安客诚（Acxiom）、益百利和艾可飞（Equifax）等，专门负责从数亿名消费者中收集个人信息加入综合档案。
不同于物质性的东西，数据的价值不会随着它的使用而减少，而是可以不断地被处理。
不同于物质性的东西，数据的价值不会随着它的使用而减少，而是可以不断地被处理。这就是经济学家所谓的“非竞争性”的好处：个人的使用不会妨碍其他人的使用，而且信息不会像其他物质产品一样随着使用而有所耗损。
最终，数据的价值是其所有可能用途的总和。这些似乎无限的潜在用途就像是选择，这里不是指金融工具意义上的选择，而是实际意义上的选择。这些选择的总和就是数据的价值，即数据的“潜在价值”。
数据的潜在价值有三种最为常见的释放方式：基本再利用、数据集整合和寻找“一份钱两份货”。而数据的折旧值、数据废气和开放数据则是更为独特的方式。
随着大数据的出现，数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时，重组总和本身的价值也比单个总和更大
潜在价值的概念表明，组织机构应收集尽可能多的使用数据并保存尽可能长的时间。同时也应当与第三方分享数据，前提是要保留所谓的“延展性”权利（专利许可术语）。
一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了，这就是“数据废气”。它是用户在线交互的副产品，包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。
数据废气可以成为公司的巨大竞争优势，也可能成为对手的强大进入壁垒。
政府才是大规模信息的原始采集者，并且还在与私营企业竞争他们所控制的大量数据。政府与私营企业数据持有人之间的主要区别就是，政府可以强迫人们为他们提供信息，而不必加以说服或支付报酬。因此，政府将继续收集和积累大量的数据。
公司账面价值和市场价值之间的差额被记为“无形资产”。
这意味着目前还找不到一个有效的方法来计算数据的价值。
据持有人在认识到数据的巨大价值之后会研究是否在正式的会计条款中将其作为企业的资产。但是，一旦公司的律师得知此事，便会加以阻止。因为把数据计入账面价值可能会使该公司承担法律责任，律师们并不认为这是一个好主意。
如果不出意外，给数据的潜在价值贴上价格标签会给金融部门带来无限商机。
一个办法是从数据持有人在价值提取上所采取的不同策略入手，最常见的一种可能性就是将数据授权给第三方。
一个办法是从数据持有人在价值提取上所采取的不同策略入手，最常见的一种可能性就是将数据授权给第三方。在大数据时代，数据持有人倾向于从被提取的数据价值中抽取一定比例作为报酬支付，而不是敲定一个固定的数额。
这样一来，各方都会努力使数据再利用的价值达到最大。
由于被许可人可能无法提取数据全部的潜在价值，因此数据持有人可能还会同时向其他方授权使用其数据，两边下注以避免损失。因而，“数据滥交”可能会成为一种常态。
Import.io鼓励公司授权别人使用自己手中的数据，不然别人也可以从网上免费收集到这些数据。
微软也带着它的Windows Azure DataMarket登上了历史舞台。它的目标是专注高质量的数据和监督所提供的产品，其方式和苹果公司监督其应用程序商店中的产品类似。微软假设，一位销售主管在准备Excel表格时可能还需要做一份公司内部数据和来自经济顾问的GDP增长预测的交叉表，那么她只要点击想要购买的数据，后者将瞬间出现在她的电脑屏幕上。
用硅谷技术专家和科技出版社员工蒂姆·奥莱利（Tim O＆apos；Reilly）的话来说就是，“数据是一个平台”，因为数据是新产品和新商业模式的基石。
收集信息固然至关重要，但还远远不够，因为大部分的数据价值在于它的使用，而不是占有本身。
如今，我们正处在大数据时代的早期，思维和技术是最有价值的，但是最终大部分的价值还是必须从数据本身中挖掘。
Decide.com使用的数据都来自电子商务网站和互联网，这是公开的数据，每个人都可以利用。技术上，公司也并没有无可替代的技术人才。所以，虽然数据和技术也是不可或缺的，但是真正使得该公司取得成功的是他们拥有大数据的思维观念。它先人一步地挖掘出了数据的潜在价值。
根据所提供价值的不同来源，分别出现了三种大数据公司。这三种来源是指：数据本身、技能与思维。
第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据，却不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是Twitter，它拥有海量数据这一点是毫无疑问的，但是它的数据都通过两个独立的公司授权给别人使用。
第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了专业技能但并不一定拥有数据或提出数据创新性用途的才能。比方说，沃尔玛和Pop-Tarts这两个零售商就是借助天睿公司（Teradata）的分析来获得营销点子，天睿就是一家大数据分析公司。
第三种是基于思维的公司。皮特·华登（Pete Warden），Jetpac的联合创始人，就是通过想法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的地。对于某些公司来说，数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和员工的创新思维，他们有怎样挖掘数据的新价值的独特想法。
近年来，一种新的职业出现了，那就是“数据科学家”。数据科学家是统计学家、软件程序员、图形设计师与作家的结合体。与通过显微镜发现事物不同，数据科学家通过探寻数据库来得到新的发现。全球知名咨询管理公司麦肯锡，就曾极端地预测数据科学家是当今和未来稀缺的资源。如今的数据科学家们也喜欢用这个预测来提升自己的地位和工资水平。
数据非常之多而且具有战略重要性，但是真正缺少的是从数据中提取价值的能力。这也就是为什么统计学家、数据库管理者和掌握机器理论的人是真正了不起的人
认为当今世界数据非常之多，所以收集数据很简单而且数据价值并不高的想法是绝对错误的——数据才是最核心的部分。要知道原因，就必须考虑到大数据价值链的各个部分，以及它们会如何发展变化。
大数据最值钱的部分就是它自身，所以最先考虑数据拥有者才是明智的。他们可能不是第一手收集数据的人，但是他们能接触到数据、有权使用数据或者将数据授权给渴望挖掘数据价值的人。
有的公司精明地把自己放在了这个信息链的核心，这样它们就能扩大规模、挖掘数据的价值。信用卡行业的情况就符合这一点。
大数据拥有者依靠技术专家来挖掘数据的价值。但是，虽然受到了高度的赞扬，而且同时拥有“数据武士”这样时髦的名字，但技术专家并没有想象中那么耀眼。他们在大数据中淘金，发现了金银珠宝，可是最后却要把这些财富拱手让给大数据拥有者。
第三种类型是有着大数据思维的公司和个人。他们的优势在于，他们能先人一步发现机遇，尽管本身并不拥有数据也不具备专业技能。事实上，很可能正因为他们是外行人，不具备这些特点，他们的思维才能不受限制。他们思考的只有可能，而不考虑所谓的可行。
所谓大数据思维，是指一种意识，认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
如今，拥有大数据思维的领导者通常自己并不拥有数据资源。但就是因为这样，他们不会受既得利益和金钱欲望这样的因素影响而阻碍自己的想法实践。
如今的大数据先驱者们通常都有着交叉学科背景，他们会将这些知识与自己所掌握的数据技术相结合，应用于广泛的领域之中。
谁在这个大数据价值链中获益最大呢？现在看来，应该是那些拥有大数据思维或者说创新性思维的人。就像我们所见的一样，自从信息时代以来，这些第一个吃螃蟹的人都发了大财。但是，这种先决优势并不能维持很长的时间。随着大数据时代的推进，别人也会吸收这种思维，然后那些先驱者的优势就会逐渐减弱。那么，核心价值会不会在技术上？毕竟，一个金矿的价值也只有在它被挖掘出来之后才有意义。但是，计算机的历史却否定了这一想法。如今，在数据库管理、数据科学、数据分析、机器学习算法等类似行业的技能确实很走俏。但是，随着大数据成为人们生活的一部分，而大数据工具变得更容易和更方便使用，越来越多的人会掌握这些技能，所以这些技能的价值就会相对减少，就像20世纪60~80年代之间计算机编程技术变得越来越普遍一样。现在，国外的外包公司使得基础的计算机编程技术越来越廉价，如今它甚至成为了世界贫困人口的致富驱动力，而不再代表着高端技术。当然，这一切并不是要说大数据技能不重要，只是这不是大数据价值的最主要来源。毕竟，技术是外在的力量。
现今，我们正处在大数据时代的早期，思维和技能是最有价值的，但是最终，大部分的价值还是必须从数据本身中挖掘。因为在未来，我们可以利用数据做更多的事情，而数据拥有者们也会真正意识到他们所拥有的财富。
继续用金矿来打比方：只有金子才是真正值钱的。
大数据公司的多样性表明了数据价值的转移。
数据的价值已经从技术转移到了数据自身和大数据思维上。
随着数据价值转移到数据拥有者手上，传统的商业模式也被颠覆了。
一个独立的小公司可能更容易被接受，更有利于汇聚行业内各方的数据并从知识产权中获利最大。
行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗，因为后者不受旧观念的影响，能够聆听数据发出的声音。
当然，行业专家是不会真正消亡的，只是他们的主导地位会发生改变。
数学和统计学知识，甚至是有少许编程和网络科学的知识将会成为现代工厂的基础，一如百年前的计算能力或者更早之前的文学。人类的价值将不再体现在与思维类似的同行的交际上，而体现在与各行各业的人的交际上，因为这样知识就能广泛而深刻地进行传播。过去，要成为一个优秀的生物学家就需要认识很多生物学家，这并没有完全改变。但是如今，不只是专业技能的深度很重要，大数据的广度也变得很重要。要想解决一个生物难题，或许与天体物理学家或者数据视图设计师联系就可以实现。
麻省理工学院商学院教授埃里克·布伦乔尔森（Erik Brynjolfsson）和他的同事一起进行了一项研究，发现决策依赖数据的公司的运营情况比不重视数据的公司出色很多——这些公司的生产率比不使用数据进行决策的公司高6%。这是一个重要的竞争力，虽然随着大数据手段被越来越多的公司采用，这种竞争力会慢慢削弱。
大数据成为许多公司竞争力的来源，从而使整个行业结构都改变了。当然，每个公司的情况各有不同。大公司和小公司最有可能成为赢家，而大部分中等规模的公司则可能无法在这次行业调整中尝到甜头。
规模仍然很重要，但是如今重要的是数据的规模，也就是说要掌握大量的数据而且要有能力轻松地获得更多的数据。
用埃里克教授的话说就是，聪明而灵活的小公司能享受到非固有资产规模带来的好处。这也就是说，它们可能没有很多的固有资产但是存在感非常强，也可以低成本地传播它们的创新成果。重要的是，因为最好的大数据服务都是以创新思维为基础的，所以它们不一定需要大量的原始资本投入。数据可以授权但是不能被占有，数据分析能在云处理平台上快速而且低成本地进行，而授权费用则应从数据带来的利益中抽取一小部分。
这很可能会催生出一些中间商，它们从众多消费者手中购得信息，然后卖给公司。如果成本够低，而消费者又足够信任这样的中间商，那么个人数据市场就很有可能诞生，这样个人就成功地成为了数据拥有者。
大数据还会带来更多的威胁，毕竟，大数据的核心思想就是用规模剧增来改变现状。
应用得当，大数据会是我们合理决策过程中的有力武器；倘若运用不当，它就可能会变成权贵用来镇压民众的工具，轻则伤害顾客和员工的利益，重则损害公民的人身安全。
大数据的价值不再单纯来源于它的基本用途，而更多源于它的二次利用。这就颠覆了当下隐私保护法以个人为中心的思想：数据收集者必须告知个人，他们收集了哪些数据、作何用途，也必须在收集工作开始之前征得个人的同意。
大数据时代，很多数据在收集的时候并无意用作其他用途，而最终却产生了很多创新性的用途。
同时，想在大数据时代中用技术方法来保护隐私也是天方夜谭。如果所有人的信息本来都已经在数据库里，那么有意识地避免某些信息就是此地无银三百两
另一条技术途径在大部分情况下也不可行，那就是匿名化。
因为公司没有意识到匿名化对大数据的无效性。而出现这种无效性则是由两个因素引起的，一是我们收集到的数据越来越多，二是我们会结合越来越多不同来源的数据。
因此，如果大数据预测只是帮助我们预防不良行为，我们似乎是可以接受的。但是，倘若我们使用大数据预测来判定某人有罪并对其尚未实施的行为进行惩罚，就可能让我们陷入一个危险的境地。
基于未来可能行为之上的惩罚是对公平正义的亵渎，因为公平正义的基础是人只有做了某事才需要对它负责。
社会关于个人责任的基本信条是，人为其选择的行为承担责任。如果有人在被别人用枪威胁的情况下打开了公司的保险柜，他并不需要承担责任，因为他别无选择。
这否定了法律系统或者说我们的公平意识的基石——无罪推定原则。
也许，大数据预测可以为我们打造一个更安全、更高效的社会，但是却否定了我们之所以为人的重要组成部分——自由选择的能力和行为责任自负。
在由“小数据”时代向大数据时代转变的过程中，我们对信息的一些局限性必须给予高度的重视。数据的质量可能会很差；可能是不客观的；可能存在分析错误或者具有误导性；更糟糕的是，数据可能根本达不到量化它的目的。
与数据为伴的人可以用一句话来概括这些问题，“错误的前提导致错误的结论。”有时候，是因为用来分析的数据质量不佳；但在大部分情况下，是因为我们误用了数据分析结果。大数据要么会让这些问题高频出现，要么会加剧这些问题导致的不良后果。
大数据诱使我们犯下罗伯特·麦克纳马拉所犯的罪行，也让我们盲目信任数据的力量和潜能而忽略了它的局限性。把
未来的隐私保护法应当区分用途，包括不需要或者只需要适当标准化保护的用途。对于一些危险性较大的项目，管理者必须设立规章，规定数据使用者应如何评估风险、如何规避或者减轻潜在伤害。这将激发数据的创新性再利用，同时也确保个人免受无妄之灾。
将责任从民众转移到数据使用者很有意义，也存在充分的理由，因为数据使用者比任何人都明白他们想要如何利用数据。
为实现这一平衡，监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。一些国家也许会更谨慎，而某些种类的数据也许会更敏感。这一方式通过限制个人信息存储和处理的时间而保护了个人隐私，也可以消除“永久记忆”的恐慌——永不磨灭的数字记录让人无法告别过去。
公司可以利用数据的时间更长，但相应地必须为其行为承担责任以及负有特定时间之后删除个人数据的义务。
在大数据时代，关于公正的概念需要重新定义以维护个人动因的想法：人们选择自我行为的自由意志。简单地说，就是个人可以并应该为他们的行为而非倾向负责。
一，公开原则。因为这将直接影响到个人，所以必须公开用来进行预测分析的数据和算法系统。 ●第二，公正原则。具备由第三方专家公证的可靠、有效的算法系统。 ●第三，可反驳原则。明确提出个人可以对其预测进行反驳的具体方式（这类似于科学研究中披露任何可能影响研究结果的因素的传统）。 ●最重要的是，要确保个人动因能防范“数据独裁”的危害——我们赋予数据本不具备的意义和价值。
社会越是用干预、降低风险的方式取代为自己的行为负责，就越会导致个人责任意识的贬值。主张预测的国家是保姆式的国家，而且远不止如此。否认个人为其行为承担责任实际上就是在摧毁人们自由选择行为的权利。
保护个人责任也同样重要。
大数据的运作是在一个超出我们正常理解的范围之上的。
大数据将要求一个新的人群来扮演这种角色，也许他们会被称作“算法师”。他们有两种形式：在机构外部工作的独立实体和机构内部的工作人员——正如公司有内部的会计人员和进行鉴证的外部审计师。
我们将“算法师”的概念视为是在以市场为导向来解决这些问题，这也就避免了以侵入式的规章来解决问题
外部算法师将扮演公正的审计员的角色，在客户或政府所要求的任何时候，根据法律指令或规章对大数据的准确程度或者有效性进行鉴定。他们也能为需要技术支持的大数据使用者提供审计服务，还可以为他们证实大数据应用程序的健全性，例如反欺诈技术或者股票交易系统。最后，他们将和政府商议公共领域大数据的最佳使用办法。
内部算法师在机构内部工作，监督其大数据活动。他们不仅要考虑公司的利益，也要顾及受到公司大数据分析影响的其他人的利益。他们监督大数据的运转，任何认为遭受其公司大数据危害的人都会最初与他们取得联系。在公布大数据分析结果之前，他们也对其完整性和准确度进行审查。为了扮演好这两个角色，算法师首先要做到的就是必须在工作机构内部拥有一定程度的自由和公正。
精心达到平衡的数据独有权，是否能让社会大众从中获利？虽然听起来有点挑衅的意味，但是这是否能像知识产权一样有利于社会呢？
为了促进大数据平台上的良性竞争，政府必须运用反垄断条例。而且，就像世界上一些大型的数据拥有者那样，政府也应该公布其数据。令人高兴的是，这一切正在发生。
现在大多数人都认为大数据是一个技术问题，应侧重于硬件或软件，而我们认为应当更多地考虑当数据说话时会发生什么。
大部分的信息价值来自二级用途，即潜在价值，而不是我们所习惯认为的基本用途。
大部分的信息价值来自二级用途，即潜在价值，而不是我们所习惯认为的基本用途。结果，对于大多数数据来说，尽可能多地收集、等待信息增值并且让其他更适合挖掘其价值的人来分析它才是明智之举（前提是此人能够分享开发出的利润）。
能置身于信息流中央并且能收集数据的公司通常会繁荣兴旺。
人类的未来必须保留部分空间，允许我们按照自己的愿望进行塑造。否则，大数据将会扭曲人类最本质的东西，即理性思维和自由选择。
莎士比亚曾写道：“凡是过去，皆为序曲。”大数据通过运算将这句话铭刻，无论结果好坏——无论这句话是否会浇熄我们迎接下一个日出的热情，是否会打击我们留名于世的渴望。
人类独有的弱点、错觉、错误都是十分必要的，因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。
我们能收集和处理的数据只是世界上极其微小的一部分。这些信息不过是现实的投影——柏拉图洞穴上的阴影罢了。因为我们无法获得完美的信息，所以做出的预测本身就不可靠。但这也不代表预测就一定是错的，只是永远不能做到完善。这也并未否定大数据的判断，而只是让大数据发挥出了应有的作用。大数据提供的不是最终答案，只是参考答案，为我们提供暂时的帮助，以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候，应当怀有谦恭之心，铭记人性之本。
西方谚语有云：“预测未来最好的办法就是创造未来。”这句话在大数据时代亦应当铭记。在福特时代，任何人都无法从数据中看到汽车将替代马车，福特所创造的是无法预测的全新篇章。——译者注