1 Python数据挖掘:WordCloud词云配置过程及词频分析-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Python数据挖掘:WordCloud词云配置过程及词频分析

马哥Linux运维 来源:未知 作者:李倩 2018-09-14 14:55 次阅读

这篇文章是学习了老曹的微信直播,感觉WordCloud对我的《Python数据挖掘课程》非常有帮助,希望这篇基础文章对你有所帮助,同时自己也是词云的初学者,强烈推荐老曹的博客供大家学习。如果文章中存在不足或错误的地方,还请海涵~

一. 安装WordCloud

在使用WordCloud词云之前,需要使用pip安装相应的包。

pip install WordCloud

pip install jieba

其中WordCloud是词云,jieba是结巴分词工具。 问题:在安装WordCloud过程中,你可能遇到的第一个错误如下。

error: Microsoft Visual C++ 9.0 is required. Get it from http://asa.ms/vcpython27

解决方法也很简单,下载VCForPython27安装(Microsoft Visual C++ Compiler for Python 2.7)。但是在微软下载总是没响应。 这是最大的问题,下面我自己提供一个CSDN的地址供大家下载。下载完成,可以进行安装响应的库函数。 资源地址:http://download.csdn.net/detail/eastmount/9788218

安装完成之后,可以正常运行代码啦。

二. 简单词云代码

下面这部分代码参考老曹的,希望对你有所帮助。 老曹说:什么是词云呢?词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。 代码如下:

运行结果如下所示:

这是中文编码问题,下面讲解解决方法。

三. 中文编码错误及解决

在WordCloud安装的目录下找到WordCloud.py文件,对源码进行修改。

编辑wordcloud.py,找到FONT_PATH,将DroidSansMono.ttf修改成msyh.ttf。这个msyh.ttf表示微软雅黑中文字体。

注意,此时运行代码还是报错,因为需要在同一个目录下放置msyh.ttf字体文件供程序调用,如下图所示,这是原来的字体DroidSansMono.ttf。

此时的运行结果如下所示,这是分析CSDN多篇博客的主题,"阅读"和"评论"比较多。

也可以采用下面的代码:

wordcloud = WordCloud(font_path = 'MSYH.TTF').fit_words(word)

四. 照片背景的词云代码

下面进一步深入,假设存在一个图 "sss3.png",核心代码如下:

运行结果如下图所示,显示我和宝宝我俩最近两月的聊天记录。

一弦一柱思华年,一co一ding梦严贤。 希望文章对你有所帮助,尤其是结合数据库做数据分析的人。还是那句话,如果刚好需要这部分知识,你就会觉得非常有帮助,否则只是觉得好玩,这也是在线笔记的作用。如果文章中存在不足或错误的地方,还请海涵~

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24230
  • python
    +关注

    关注

    56

    文章

    4792

    浏览量

    84624

原文标题:Python数据挖掘:WordCloud词云配置过程及词频分析

文章出处:【微信号:magedu-Linux,微信公众号:马哥Linux运维】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    计算数据挖掘

    想要自学计算和数据挖掘想问下这些方面有哪些内容该从何开始求大神们指教谢谢
    发表于 04-19 00:07

    python数据分析的类库

    Python之所以这么流行,这么好用,就是因为Python提供了大量的第三方的库,开箱即用,非常方便,而且还免费哦,学Python的同学里估计有30%以上是为了做数据分析师或者
    发表于 05-10 15:18

    怎么有效学习Python数据分析

    过程。对于新手,如何学好python,这些很关键:Part1:能掌握好Python关键代码以及Pandas、Numpy、Matplotlib、Seaborn这四个基本工具包,便能独立完成一些简单的
    发表于 06-28 15:18

    灵玖软件:NLPIR智能挖掘系统专注中文处理

    和气象学。大数据提出了数据库和数据分析研究了隆重的挑战。应对大数据的挑战,文本处理是不可或缺的一部分。大数据与人们以各种方式连接的媒介。尤其
    发表于 01-21 11:39

    xpath运用基本方法和生成

    xpath解析页面以及分析
    发表于 02-27 13:52

    Python生成的淘宝评论云图

    Python——对淘宝评论词频统计并生成云图
    发表于 11-04 06:12

    NLPIR大数据语义分析系统的使用手册

    统计信息输出文件 文件统计结果包括:文档名、总词频、总词数、用户词典总词频与用户词典 总词数。批量分词 对原始语料进行分词、自动识别人名地名机构名等未登录、新词标注以及 词性标注。可在分析
    发表于 11-14 17:04

    数据挖掘之基于关联挖掘的商品销售分析

    数据挖掘:基于关联挖掘的商品销售分析
    发表于 06-09 08:32

    LabVIEW生成酷炫的(wordcloud)效果

    通过LabVIEW调用Pythonwordcloud和matplotlib库,实现如下图所示的效果
    发表于 12-27 22:54

    基于关键相似度的用户挖掘研究

    在Web挖掘极度盛行的今天,收集大量网络数据已经不是问题,而如何在海量数据中抽取去噪后的有用数据成为要解决的关键问题。本文研究将网站用户的搜索关键
    发表于 12-13 10:15 0次下载

    基于词频统计的关键提取方法

    在TF-IDF算法基础上,提出新的基于词频统计的关键提取方法。利用段落标注技术,对处于不同位置的词语给予不同的位置权重,对分词结果中词频较高的同词性词语进行词语相似度计算,合并相似度较高的词语
    发表于 12-15 15:29 13次下载
    基于<b class='flag-5'>词频</b>统计的关键<b class='flag-5'>词</b>提取方法

    python统计词频的三种方法

    python统计词频的三种方法方法。
    发表于 05-25 14:33 2次下载

    python数据挖掘与机器学习

    用的数据挖掘和机器学习工具。 一、数据挖掘 数据挖掘是指从大量
    的头像 发表于 08-17 16:29 1312次阅读

    python数据挖掘案例

    Python数据挖掘的强大功能。 一、金融领域 1.股票价格预测 股票市场是一个复杂的系统,而股票价格的预测对于投资者来说常常是至关重要的。Python
    的头像 发表于 08-17 16:29 1666次阅读

    Dynaconf 轻松实现 Python 动态配置管理

    ) **如果你用Python的目的是数据分析,可以直接安装Anaconda: Python数据分析挖掘好帮手—Anaconda ,它内置了
    的头像 发表于 10-30 15:02 875次阅读