社会计算一

参考《社会媒体挖掘》

为什么社会计算领域会兴起？

社会媒体的快速发展使得更多的人开始活跃在网络上，产生的数据量十分巨大，这些数据是研究人类社会，发展人工智能技术的重要资源。微博，微信，知乎，QQ等等社交媒体拥有巨大的用户数量，其他新兴的app（有些甚至不是以社交为主打功能的）也正在不停的吸收着用户，从交友，饮食，出行，娱乐到投资，咨询，教育各个生活领域都已开展了线上业务，不仅仅是信息量爆炸，信息的维度也逐渐变得丰富，将一系列APP的用户数据整合就可以刻画出一个大概的用户画像，随着数据挖掘技术的发展，未来有可能你的智能助理会真的比你还了解你自己。

从个人层面看，社会计算可以利用用户数据刻画出用户画像，然后进行个性化推荐等服务（现在已经有了一些例子，比如淘宝，京东的购物推荐，网易云音乐的每日推荐）；从人类社会层面来看，如此庞大的数据量，如此丰富的数据维度使得人类社会可以被表示，从而发现人类社会的模式，使得我们能更好的理解社会。

利用计算方法处理社会媒体数据，我们可以比以往更加有效的进行社会学方面的研究，我们不仅会更加了解人类个体，而且会更加了解人类社会，一些亟待解决的社会问题可以通过这种方式研究。这次新型冠状病毒引发的疫情中，就利用大数据等技术分析了社会人员流动，对疫情防控提供了精准有效的数据支持。

总的来说，社会计算领域是一个有着极大发展潜力的新兴领域。当今人类社会被信息技术以一种更加快速高效的方式组织在了一起，巨大的社会数据存储在互联网中，等待我们去挖掘其中的宝藏，人类社会的新一轮“淘金热”即将兴起

社会计算涉及的领域十分广泛，主要是传统的社会学与信息技术相结合，需要掌握的技术包括但不限于数据挖掘，机器学习，文本挖掘，社会网络分析，信息检索。社会计算要做的工作就是像一个淘金者一样，在数据河流中淘金。

社会媒体挖掘面临的问题与挑战

最为主要的问题就是数据的噪声很大而且完全无结构化

当越来越多的人接入社会媒体，网络上的数据爆炸式增长，但我们却“沉浸在数据的海洋，却渴望着知识”，如果我们不能有效的挖掘数据中的知识，那么这些数据只是浪费存储资源的垃圾罢了。

社交媒体中的数据噪声很大，网络中充斥着各种的垃圾数据，好不夸张的说，互联网是一片鱼龙混杂的海洋，里面有着质量参差不齐的数据来源，有着各种性质的社区。网络中的信息完全无结构化，里面有各种形式的信息，比如文本，图像，音频等等，这些信息没有统一的结构，使得数据挖掘面临巨大的困难。同时社会媒体中还蕴含着丰富多样的社交关系等新的数据类型。要解决这些问题，必须研究新的计算方法，也就是社会计算。

大数据悖论

社交媒体中的数据量十分巨大，但当我们聚焦到个体，想要做个性化推荐时却发现数据少的可怜，所以我们不能只专注于单一的数据来源，我们们要利用社会媒体的特性，从不同的维度，从不同的来源整合个体的数据，从而更准确的刻画用户，这里的挑战就是如何搜集并整合数据。

样本采集

常用的数据采集方式是通过社交媒体的API，但是在采样过程中，我们如何才能确定样本的代表性与准确性，如何确定使用的统计方法是正确的，如何才能保证挖掘出的模式是能够真正代表人类真实的行为模式的？

噪声消除谬误

传统数据挖掘中，有很大一部分工作是在进行数据预处理与降噪，但是社交媒体中的噪声极多，而且其与有价值的信息往往混杂在一起，盲目的降噪会将有价值的数据一并剔除，这样会加剧大数据悖论。噪声的定义往往是相对的，噪声有可能是有价值的，有价值的数据在特定情况下也有可能成为噪声。社会媒体数据本身的性质使得对其的降噪处理变得很难。

评价困境

就算我们获得了足够的有效的数据，学习得到了模式，但是如何评价该模式也是一个很困难的问题。数据挖掘中常用的模式评价的方法是将数据集分为训练集与测试集。而社会媒体挖掘中往往没有标准答案，这使得评价难以进行，难以评价模式的正确性。

To be continued >>>>>