大数据,大安利
下面是小编为大家整理的大数据,大安利,供大家参考。
大数据, 大安利
最近在社会上刮起一阵大数据的不正之风, 本科生也敢拿着几个G 的硬盘声称这些数据能解决某某疑难问题, 让人联想起存满硬盘黄片的处男说这家伙老爽了 。
虽然在社会科学领域流行程度远不及计算机和工程, 谷歌学术我用关键字搜索一下, 大数据和社会科学为内容的文章 2011 年是 194个, 2012 年 635, 2013 年 1820, 这两年算是以 1.2 左右的指数增长了吧。
一个话题一年一两千篇文章并不算多, 相比之下"social stratification"2014 年还没过完就已经 16800 多篇了 , 但是大数据这个话题在网上传的很神, 尤其是我国这个每个人什么都懂一点但又懂得不精的土地上, 有种安利好产品准备取代传统营销的感觉。
对码农来说如获至宝, 世界上的数据太多, 本来被认为是煤干渣的东西现在好像也可以当钻石了 , 煤窑工人挥舞锄头高喊:
万岁 data mining!
不过我认为这也没错, 随着技术的进步, 苞米也能替代汽油,煤干渣也可以做成首饰。
大数据对工程学是很好的, 但是矿工拿煤干渣当钻石推销到社会科学, 说这玩意可以代替统计学和抽样技术, 我就不乐意了 。
物理学家对大数据也颇有微词, 不过我不懂物理就不说了 。
国外对大数据在其他领域滥用已经有了 很多批评, 我总结一下主要:
1、 无意义的显著性:
没有理论的大数据是皮毛, 只看到显著相关性, 但不经检验, 没有理论, 这样的相关是没有意义的, 或许是虚
假。
关键是:
大数据的 data point 太多, 在计算上找到两个矢量的显著关系极其容易, 但正是因为数据量大, 控制虚假关系反而更难, 这是一个两难。
我有一篇文章投出去, 匿名 评审说:
样本很大, 当然能找到显著相关, 但是看不出意义。
2、 采样方法问题:
统计学家方凯撒总结了 一个现象, 谷歌、facebook 等网络收集的数据, 往往不具有同质性, 是在不同的时间用不同的资源收集, 随后把整个数据合并起来, 结果大数据内部许多部分的数据根本不是用同样的方法收集的, 统计抽样的基本假设都被推翻了 。
而且网络数据和线下数据的内容不一致, 比如华尔街邮报的电子版和纸版就不一样, 而且用户可以自 定义内容。
3、 机器语言不稳定:
谷歌最开始用关键字预测感冒流行地区,开始说比疾控中心预测的还准, 但后来越来越不准。
有人认为这是谷歌的搜索算法在不停地改进, 所以自 动收集数据不稳定了 。
另外机器语言一旦被误导会越错越离谱, 比如谷歌翻译是根据真实的文章总结的, 但是有些网络的“真实” 翻译其实是谷歌翻的, 于是谷歌会把自己的翻译基于这些“真实” 文章上。
以上归根结底是人和机器的矛盾:
数据必须让人用理论来指导、收集, 否则会出现谬误。
这些都是可以避免或改进的, 但这些原因足以让大数据在短期之内难以在社会科学领域立足。
除此之外, 我自 己有一个想法, 基于一个假设, 认为大数据是不可能在人类行为领域立足的, 研究文本或死物的历史学、 语言学或许可以, 但是社会学、 犯罪学、 人类学这三个恐怕很难。
学抽样的都明白, 只要确定了 图 1 中想要的准确度 Z(a/2)^2, 方差 S, 回答率 r, 基本就可以求出从一个人群中应该抽多少个样本才能有代表性, 而人群总量 N 的影响最后就不大了 。
在 95%置信区间的情况下, 一个小镇 4000 人, 一个城市十万人, 从小镇抽 360 人可以达到代表性, 从那个城市抽 390 人照样可以有代表性, 不可能因为后者多了 几百倍就要多抽几百倍的人。
所以大数据首先就没有必要了 ,在满足准确性的时候, 小样本和大数据的效果没有区别; 而不满足准确性的时候, 大数据的误差只会更大。
图 1
这只是最基本的情况, 实际抽样中往往需要分层, 二龙湖有十块苞米地, 有些面积大有些小, 有些里面有非法性交易, 要找那块苞米地里有性交易, 就得把十块苞米地分成两类:
离人烟近的, 离人烟远的, 赋予后者的抽样概率要大。
这是所谓分层抽样, 现实中, 几乎所有大规模抽样都是分层抽样的变种。
分层抽样的情况下, 后期统计运算都必须一个权重 w, 如图 2,每层人数 M 和 n 都暂时不重要, 权重是和φ成反比的:
φ是该层被选择的概率。
一个分层的权重高, 在分析中就不可忽视。
大数据的问题是它只能收集到权重低的数据:
图 2
我们知道帕累托分布, 应用很广, 从小姐接客分布到富豪财产分布都可以用帕累托分布表示。
另一种类似 power distribution 的 Zipf曲线, P(r)=1/(r*Ln(R)), 用来表示重要性和出现频率:
语言学中, 一个词日 常使用频率与它的排名 成反比, chinkafir 这个词排第 10000, 它的出现概率就大概是 1/10000。
由于这个分布的广泛性, 我有一个基于权重的假设:
因为抽样概率越低的分层, 的权重越高; 所以越难被抽样的人群, 的统计重要性越高。
现实中, 最容易研究的对象往往最无聊, 心理学经常上课找大学生做实验, 所以现在以大学生为样本的文章很难发表了 ; 而谁要在二龙湖跟浩哥混几天, 做出来的研究就算不很严密也依然重要。
这点才是我说大数据的第二个重要弱点, 数据越大越不重要。
一个人收集了 一堆权重接近 0 的中产阶级对暴力犯罪的态度, 而另一人在 Cicero 和 Latin Kings 混了 两个月 , 你觉得谁的结论重要? 不是说前者没有意义, 普通人群在分析时是必要的, 但大数据基本只能接触到一些数据, 没有抽样技术的话永远不具有代表性。
就跟安利一样, 产品或许不错, 但是推销方式往往太傻逼, 想取代传统还需努力。
热门文章:
- 酒店总经理年度工作总结8篇2024-12-07
- 2023年度大一上学期期末个人总结800字10篇(完整)2024-12-07
- 2023年高三综评期末总结8篇2024-12-07
- 四年级科学的教学总结6篇【精选推荐】2024-12-06
- 期末颁奖总结3篇(范文推荐)2024-12-06
- 医院客服年终个人总结7篇2024-12-06
- 2023年度高校寒假安全教育主题班会总结12篇(2023年)2024-12-06
- 2023年有关学生期末个人总结7篇(范文推荐)2024-12-06
- 2023年度公司业务部年终总结10篇2024-12-06
- 园林绿化有限公司年度工作总结5篇【完整版】2024-12-06
相关文章:
- 大数据时代统计工作思考8篇2022-08-21
- 2022数据分析简历工作经验,,数据分析师岗位个人简历工作经历范本2022-09-19
- 数据存储—手机通讯录(2022年)2022-10-24
- 2023数据结构与算法课程心得体会(3篇)2023-01-17
- 2023年数据结构课程设计心得体会【10篇】【通用文档】2023-01-21
- 最新数据结构课程设计哈夫曼编码(五篇)2023-04-05