1 数据可视化用来创造一条快速认识数据集的捷径-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据可视化用来创造一条快速认识数据集的捷径

DPVg_AI_era 来源:lq 2019-06-07 11:16 次阅读

目前已有的可视化技术可处理的节点规模上限在十万量级。当网络中节点数超过该上限时,布局算法的效率便急剧下降。上海交通大学Acemap团队便提出了一种突破百万量级壁垒的可视化绘图新方法。本文以Acemap数据库中收集的Nature杂志论文引用关系数据集为例,展现了超大规模学术网络可视化的破冰之旅!

数据可视化通俗来说就是使用图形来表达抽象数据的结构、变化、联系、或趋势。数据可视化的发展已经有几百年的历史,而上世纪五十年代计算机的发明使人类处理数据的能力有了质的提升。

与此同时,随着计算机技术的飞速发展,人类开始创造各式各样体型庞大的数据集。数据集的内容变得越来越抽象且复杂,简单的可视化方法已经无法满足人们的需求。

数据可视化用来创造一条快速认识数据集的捷径,图形化的数据表示方法能够将人类的注意力吸引到重要目标,搭建人类与数据进行沟通的桥梁。根据不同数据集的特点,对数据可视化方法进行研究,从而最终得到可视化结果的过程本身并不容易,因此大数据可视化本身就是一门艺术。

图1统计学家John Wilder Tukey:信息可视化理论的重要奠基者(1915—2000)

目前已有的网络可视化算法如Force Atlas,ForceAtlas2,Fruchterman Reingold,Yifan Hu等算法可处理的节点规模上限在十万量级。当网络中节点数超过该上限时,布局算法的效率便急剧下降。而学术网络中的节点数量通常在百万量级甚至更高,算法的性能瓶颈和实际需求间的巨大差异对于揭示实际学术大数据空间结构形态造成了巨大障碍,面临诸多严峻的技术挑战。

上海交通大学Acemap团队聚焦此项问题,另辟蹊径,提出了一种突破百万量级壁垒的可视化绘图新方法,为超大规模可视化的可实现性提供了新的突破口,开启了学术大数据空间可视化新纪元。接下来,本文将以acemap数据库中收集的Nature杂志论文引用关系数据集为例,向您展现超大规模学术网络可视化的破冰之旅!

超大规模学术网络——Nature杂志论文引用关系数据集

Nature杂志论文引用关系数据集来源于Acemap数据库,数据集包含了Nature杂志中的所有论文与这些论文引用的其他论文总共2053310篇。其中囊括了生物、物理、机械、化学、心理学等19个领域。从直观上来说,数据可视化完成后在整体上将会有明显的聚类效果,因为相同领域内的引用关系一定会比不同领域间的引用关系更加密切。除此之外,数据集中包含3426847条边,用来表示数据集中论文之间的引用关系。

破冰之斧——ForceAtlas2布局算法

ForceAtlas2布局算法是一种力引导算法。该算法整合了包括Barnes Hut近似,度决定性斥力,全局与局部迭代速度自适应调整等技术。相比于Force Atlas算法,ForceAtlas2运行速度更快,并且处理的图的规模更大。算法运行时,节点与节点之间将会相互排斥,存在连边的两个节点将会相互吸引。当算法稳定后,用户将得到一个稳定的布局。

斧之利刃——分割绘图法

当数据体量增长到一定程度后,以往的可视化方法无论从计算的准确性,还是可视化结果的可展示性都将遇到瓶颈,直接将所有数据放入布局算法中进行计算似乎是不可行的。于是我们提出使用分割绘图法对大规模学术网络进行可视化的方法。

分割绘图法的整体思路就是使用某种启发式算法,在数据进行可视化之前,检测数据的结构,并根据数据在结构上的联系将数据集分割为多个社区。分割后的单个数据集已经在布局算法可以处理的范围之内,这时我们需要将这些数据集进行分别布局,然后将布局完成的小图,以某种合理的方式进行拼接,最后再使用布局算法进行微调,即可得到最终的可视化。

破冰之旅——使用分割绘图法对学术网进行可视化

数据分割

我们使用启发式算法根据数据集节点在结构上的联系对其进行分割,分割的具体流程如下。

图2使用启发式算法实现数据集数据的结构分割流程图

图3为社区划分结果统计:

图3社区标号与社区中节点关系

图4社区划分数量分布统计

图3显示了社区划分完成后4917个社区中节点数量的分布,图4显示不同社区节点数量级中社区数的分布。在社区数量分布来说,社区节点数量最多分布在1000以下,总共占总体的97%,社区中节点数量超过1000的占总体的3%,其中更是有两个社区节点的数量超过了12万,可见这些社区中核心节点的影响力之大。

根据社区划分的数量与最终的模块度可以看出:社区划分的效果较好,可知该数据集本身就具有非常强的结构性,且这种强结构性对后面图结构等效模型的提出有很好的启蒙作用。

等效结构的获取

为了解决社区的块间布局的计算,我们重新对基于引斥力模型的ForceAltlas2算法进行研究。在ForceAltlas2算法中,决定节点位置的最本质因素是一个节点所受的引力和斥力。同理,一个社区的最终位置也由该社区所受的引力和斥力决定,且社区内各个节点之间的力不会影响社区之间的引力和斥力。我们通过将社区中的所有节点等效为一个节点,进而得到数据集结构的等效模型。

图5为等效结构的Gephi渲染结果

图5 Nature杂志引用关系数据等效结构模型

该结构由社区节点数大于等于1000的149个社区进行等效,因为大图的总体社区结构应由节点数较多的社区决定,节点数较少的社区可能会对图的局部布局产生影响,但不会对整体结构形状造成影响,因此这些节点的作用可以暂时忽略。该图中的绿色节点表示社区的等效节点;绿色节点间的连边表示不同社区之间的等效连边,他们有不同的权重;绿色节点外的白色节点的作用是为了平衡不同社区之间的斥力。

子图的分别布局

我们使用ForceAtlas2算法对划分的结果进行分别布局,图6为ForceAtlas2算法收敛后选取的部分社区的可视化结果:

图6 ForceAtlas2算法对部分社区进行可视化的结果

在图6中社区以不同的结构形态聚集在一起,有些社区存在多个核心,比如community_4,community_5,community_8,这些社区所包含的领域中的论文可谓是“百花齐放”;有些社区只存在一个核心,比如说community_1,这些社区中核心论文可谓是“一枝独秀”。

子图的拼合

当我们得到Nature杂志引用关系数据的等效结构与每个社区在ForceAtlas2算法下的布局后,我们现在就可以进行社区的拼合工作。

首先,由于我们得到的结构是一个相对真实结构等比例缩放的结构,他不一定能够较好地容纳各个社区。因此,我们需要对得到的等效结构进行等比例缩放,以适用每个社区的大小,并且避免每个社区之间有过多的重叠或者社区之间的距离过大的问题。对结构进行缩放非常简单,只需要将结构中的每个中心节点的坐标乘上一个缩放因子即可,即:

由于拼合完成的图结构最终还需要进行微调,所以进行拼合时不需要将结构计算的非常精确,因此我们只需要手动调节参数λ到图结构合适即可。

当完成图结构大小的调节后,我们需要进行图的拼接。图的拼接同样很简单,假设等效结构中某社区的中心节点为

,该社区的各个节点的坐标为

,则该社区中每个节点在大图中的位置为:

合并图的微调

在前面的操作当中,我们通过对社区进行分别布局,进而得到了Nature杂志论文引用关系数据布局的局部最优解,但通过上述的拼合方式得到的布局并不是全局的最优解,因此我们需要使用微调的方式来消除上述拼合过程中产生的误差。

为了保留数据的完整性,我们需要将先前忽略的数据补全。当完成数据补全后,我们可以开始图的微调工作了。微调完成后,我们已经得到所有节点的位置信息。到此时,节点布局的基本工作已经完成,这时我们需要将节点信息通过Gephi渲染,图7为Gephi最终渲染的结果:

图7 Nature杂志论文引用关系数据可视化结果(2053310个节点,3426847条边)

图8图例

由图7可见,Nature杂志论文引用关系数据存在较强的结构性。图中最外层一圈细细的圆环是数据集中度为0的点,他们没有引力的作用,因此呈现在图的最外层;图中产生了超级大的红色节点,该点属于生物学领域,论文名称为“Cleavage of Structural Proteins during the Assembly of the Head of Bacteriophage T4”,据不完全统计,这篇文章已经达到了118282的引用量,引用数已经到达数据总量的1/20,达到了生物学领域数据量的1/10,可见这篇文章的影响力之大。图7能够显示出较好的聚类效果,红色区域表示生物学领域,生物学领域的文章的数量占据了Nature杂志一半还要多,在图中能够有较好的体现;然后物理学与机械领域分别占据了11.17%和9.11%;这些领域之间存在相互交叠的,交叠表示两个领域之间存在学科交叉。

理想彼岸终到达——可视化结果的呈现

完成数据的可视化后,我们还进行了节点的重叠去除,图的分层加载,由于篇幅限制,在此不再赘述。一下为可视化结果不同放大级别的展示。

图9

图10

图11

图12

新纪元下的展望——分割绘图法的衍生应用

分割绘图法开创性地突破了网络大数据可视化百万量级的屏障,为超大规模作图带来了新鲜血液。该方法可将大部分学术网络一次性画出,从而有望揭示整个学术领域的全貌,以及世界范围内的精准学术定位,并对世界范围内的学术地图绘制提供重要思路。分割绘图法除了在超大规模学术网络可视化中发挥巨大作用外,该方法同样可以扩展到其他具有结构性的超大规模网络,例如大规模社交网络。

超大规模数据可视化领域仍有许多屏障需要我们去突破,这正是吾辈需要努力之处。总之,革命尚未成功,同志仍需努力!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4607

    浏览量

    92819
  • 可视化
    +关注

    关注

    1

    文章

    1194

    浏览量

    20932
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24688

原文标题:简单几步可视化Nature论文引用关系,百万量级数据全搞定

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    从使用效果来看,数据可视化工具离不开数据中台吗?

    需求。如果缺乏数据中台,不仅无法快速整合多系统数据,也无法实现数据精准匹配抓取,更无法实现实时运算分析。数据中台+预设的运算模型,让奥威BI
    发表于 05-12 14:14

    为更快读懂报表,我们将数据可视化

    数据可视化后,即使是复杂难懂的数据也会瞬间变得简单易懂,难就难在怎么快速将海量数据中的复杂数据
    发表于 06-05 17:21

    只有报表直观了,不能算真正的数据可视化

    于大型企业、项目的智能数据可视化分析,也可用于集团性数据可视化分析。如集团客户可通过集团分级授权机制,为不同组织架构配置管理员,并由这些管理员各自组织管理各自的用户角色权限,如
    发表于 07-01 17:20

    能做数据治理的数据可视化工具,又快又灵活

    进行下步的智能分析、可视化展现。但由于历史原因,个部门不是自主研发就是向外购买适合自身的数据系统,这就导致同样的数据再不同的部门系统上的分析口径不
    发表于 07-13 15:34

    Python数据可视化

    Python数据可视化:网易云音乐歌单
    发表于 07-19 08:30

    这样选数据可视化工具,更能选到适用的

    数据可视化效果:浏览者是否能更快读取关键信息简单来说就是在一张数据分析报表中,浏览者能不能迅速获取关键数据快速发现问题,在发现问题后是否
    发表于 07-30 13:17

    请问怎么把BI数据可视化报表发给领导看?

    在BI工具上三除两下搞定数据可视化报表后,怎么把做好的报表发给领导看?领导是否能够从手机或平板上快速打开数据可视化报表,并展开自助式
    发表于 09-01 17:26

    请问大屏的数据可视化分析报表怎么做?

    大屏是数据可视化分析的个展示方式,和pc(电脑)端、手机移动端样都需要在pc端进行规划和设计。那么,怎么在pc端快速制作
    发表于 09-08 16:58

    不懂技术的业务,该怎么做数据可视化分析?

    帮上忙。不涉及代码,全程拖拉拽+点击BI数据可视化工具是种不涉及代码,全程拖拉拽+点击就能快速开发数据分析报表的智能
    发表于 06-30 13:37

    怎么做以中国地图为底图的数据可视化报表?

    想做份以中国地图为地图,分析全国各地销售情况的数据可视化报表,该用什么图表、做哪些设置才能实现?在奥威BI数据可视化软件上,我们会推荐你使
    发表于 07-06 16:07

    经验分享|BI数据可视化报表布局——容器

    容器功能是种用于数据可视化图表排版的功能,主要作用对图表进行有效的布局调整,或者用于巧妙在同地方安排多个不同类型的数据
    发表于 03-15 17:10

    财务数据分析?奥威BI数据可视化工具很擅长

    的智能财务指标计算功能,还拥有套标准化、系统化的财务数据分析方案,无需测试,下载即可用! 奥威BI工具+智能财务方案:轻松完成智能财务数据可视化分析 奥威BI智能财务方案是
    发表于 08-29 09:44

    数据可视化的常用技术和并行与原位可视化方法分析

    数据可视化就是将抽象的“数据”以可见的形式表现出来,帮助人理解数据。大数据可视化相对传统的
    的头像 发表于 04-17 16:51 6418次阅读

    键生成可视化图表/大屏 这13款数据可视化工具很强大

    前言 数字经济时代,我们每天正在处理海量数据,对数据可视化软件的需求变得突出,它可以帮助人们通过模式、趋势、仪表板、图表等视觉辅助工具理解数据的重要性。 如果遇到
    的头像 发表于 12-19 17:27 5448次阅读
    <b class='flag-5'>一</b>键生成<b class='flag-5'>可视化</b>图表/大屏 这13款<b class='flag-5'>数据</b><b class='flag-5'>可视化</b>工具很强大

    什么是大屏数据可视化?特点有哪些?

    大屏数据可视化是指通过大屏幕展示大量数据和信息,以直观、可视化的方式帮助用户理解和分析数据。这种展示方式通常用于展示复杂的
    的头像 发表于 12-16 16:59 112次阅读