文本数据分析：文本挖掘还是自然语言处理？-德赢Vwin官网网

数据分析师Seth Grimes曾指出“80%的商业信息来自非结构化数据，主要是文本数据”，这一表述可能夸大了文本数据在商业数据中的占比，但是文本数据的蕴含的信息价值毋庸置疑。KDnuggets的编辑、机器学习研究者和数据科学家Matthew Mayo就在网站上写了一个有关文本数据分析的文章系列。本文是该系列的第一篇，主要讲述了文本数据分析的大致步骤和框架。以下是论智对原文的编译。

虽然NLP和文本挖掘不是一回事儿，但它们仍是紧密相关的：它们处理同样的原始数据类型、在使用时还有很多交叉。下面我们就来描述一下这些任务的处理步骤。

如今的文本数据量非常之大，许多都是从日常生活中产生的，其中既有结构化的，也有半结构化甚至混乱的数据。我们对此能做什么？事实上，能做的有很多，这取决于你的目标是什么。

文本挖掘还是自然语言处理？

自然语言处理（NLP）关注的是人类的自然语言与计算机设备之间的相互关系。NLP是计算机语言学的重要方面之一，它同样也属于计算机科学和人工智能领域。而文本挖掘和NLP的存在领域类似，它关注的是识别文本数据中有趣并且重要的模式。

但是，这二者仍有不同。首先，这两个概念并没有明确的界定（就像“数据挖掘”和“数据科学”一样），并且在不同程度上二者相互交叉，具体要看与你交谈的对象是谁。我认为通过洞见级别来区分是最容易的。如果原始文本是数据，那么文本挖掘就是信息，NLP就是知识，也就是语法和语义的关系。下面的金字塔表示了这种关系：

数据处理,自然语言

另一种区分这两个概念的方法是用下方的韦恩图区分，其中也涉及其他相关概念，从而能更好地表示它们之间重叠的关系。

数据处理,自然语言处理

我们的目的并不是二者绝对或相对的定义，重要的是要认识到，这两种任务下对数据的预处理是相同的。

努力消除歧义是文本预处理很重要的一个方面，我们希望保留原本的含义，同时消除噪音。为此，我们需要了解：

关于语言的知识

关于世界的知识

结合知识来源的方法

除此之外，下图所示的六个因素也加大了文本数据处理的难度，包括非标准的语言表述、断句问题、习惯用语、新兴词汇、常识以及复杂的名词等等。

数据处理,自然语言处理

文本数据科学任务框架

我们能否为文本数据的处理制作一个高效并且通用的框架呢？我们发现，处理文本和处理其他非文本的任务很相似，可以查看我之前写的KDD Process作为参考。

以下就是处理文本任务的几大主要步骤：

1.数据收集

获取或创建语料库，来源可以是邮箱、英文维基百科文章或者公司财报，甚至是莎士比亚的作品等等任何资料。

2.数据预处理

在原始文本语料上进行预处理，为文本挖掘或NLP任务做准备

数据预处理分为好几步，其中有些步骤可能适用于给定的任务，也可能不适用。但通常都是标记化、归一化和替代的其中一种。

3.数据挖掘和可视化

无论我们的数据类型是什么，挖掘和可视化是探寻规律的重要步骤

常见任务可能包括可视化字数和分布，生成wor dclouds并进行距离测量

4.模型搭建

这是文本挖掘和NLP任务进行的主要部分，包括训练和测试

在适当的时候还会进行特征选择和工程设计

语言模型：有限状态机、马尔可夫模型、词义的向量空间建模

机器学习分类器：朴素贝叶斯、逻辑回归、决策树、支持向量机、神经网络

序列模型：隐藏马尔可夫模型、循环神经网络（RNN）、长短期记忆神经网络（LSTMs）

5.模型评估

模型是否达到预期？

度量标准将随文本挖掘或NLP任务的类型而变化

即使不做聊天机器人或生成模型，某种形式的评估也是必要的

在下篇连载中，我将为大家带来在文本数据任务中，对数据预处理的框架的进一步探索，敬请关注。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据处理

数据处理

+关注

关注
0

文章
595

浏览量
28554
自然语言处理

自然语言处理

+关注

关注
1

文章
618

浏览量
13548

原文标题：文本数据分析（一）：基本框架

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

自然语言处理包括哪些内容自然语言处理技术包括哪些

自然语言处理(Natural Language Processing, NLP)一般包括以下内容：语音识别(Speech Recognition)：将人类语言转换为计算机可以理解的形式。语音合成

发表于 08-03 16:22 •7205次阅读

python自然语言

最近，python自然语言是越来越火了，那么什么是自然语言。自然语言（Natural Language ）广纳了众多技术，对自然或人类语言进

发表于 05-02 13:50

NLPIR语义分析是对自然语言处理的完美理解

,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。包括大数据完整的技术链条：

发表于 10-19 11:34

自然语言处理怎么最快入门？

`本文整理自知乎上的一个问答，分享给正在学习自然然语言处理的朋友们！一、自然语言处理是什么？自然语言

发表于 11-28 10:02

【推荐体验】腾讯云自然语言处理

自然语言处理技术的功劳。可以说，只要有大量文本数据的应用场景，几乎都涉及到NLP技术，也都可以使用相关自然语言处理产品的接口来做智能

发表于 10-09 15:28

NLPIR平台实现文本挖掘的一站式应用

的工具。语义智能分析的全链条指的是从语料数据的采集预处理，经过自然语言处理到文本

发表于 11-07 16:43

自然语言处理技术可助力机器学习加快挖掘数据

目前，产业界正发力钻研人工智利用数据的高效方法。通过自然语言处理和主题建模可以使技术优化、竞争分析和微弱信号检测等流程得到改善，加快海量文本数据分析

发表于 04-11 15:06 •1862次阅读

自然语言处理（NLP）的学习方向

科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或“理解”自然语言，以执行自动翻译、文本分类和情感分析等。

发表于 07-06 16:30 •1.3w次阅读

自然语言处理的图像文本建模相关研究及分析

近年来，图像文本建模研究已经成为自然语言处理领域一个重要的硏究方向。图像常被用于增强句子的语义理解与表示。然而也有硏究人员对图像信息用于句子语义理解的必要性提岀质疑，原因是文本本身就能

发表于 03-24 11:33 •27次下载

NLA自然语言分析，助力解决数据分析的难题

NLA自然语言分析便是顺应数据分析大环境而诞生的一项功能，为用户提供更加智能便捷的数据分析。

发表于 06-02 10:07 •455次阅读

自然语言理解问答对话文本数据，赋予计算机智能交流的能力

自然语言理解（Natural Language Understanding，简称NLU）问答对话文本数据是现代人工智能领域的一项重要资源。这些数据集涵盖了用户与计算机之间的自然语言交互

发表于 08-07 18:11 •666次阅读

自然语言处理模式的优点

得到了广泛的应用，如搜索引擎、语音助手、机器翻译、情感分析等。 1. 提高信息获取效率 自然语言处理技术能够快速地从大量文本数据中提取关键信息，帮助用户节省查找和筛选信息的时间。例如，

发表于 07-03 14:24 •755次阅读

ASR与自然语言处理的结合

。以下是对ASR与自然语言处理结合的分析：一、ASR与NLP的基本概念 ASR（自动语音识别）：专注于将人类的语音转换为文字。涉及从声音信号中提取特征，并将这些特征映射到文本。

发表于 11-18 15:19 •388次阅读

自然语言处理与机器学习的关系 自然语言处理的基本概念及步骤

Learning，简称ML）是人工智能的一个核心领域，它使计算机能够从数据中学习并做出预测或决策。自然语言处理与机器学习之间有着密切的关系，因为机器学习提供了一种强大的工具，用于从大量文本数

发表于 12-05 15:21 •447次阅读

如何使用自然语言处理分析文本数据

使用自然语言处理（NLP）分析文本数据是一个复杂但系统的过程，涉及多个步骤和技术。以下是一个基本的流程，帮助你理解如何使用NLP来分析

发表于 12-05 15:27 •255次阅读

搜索历史

文本数据分析：文本挖掘还是自然语言处理？

评论

自然语言处理包括哪些内容自然语言处理技术包括哪些

python自然语言

NLPIR语义分析是对自然语言处理的完美理解

自然语言处理怎么最快入门？

【推荐体验】腾讯云自然语言处理

NLPIR平台实现文本挖掘的一站式应用

自然语言处理技术可助力机器学习加快挖掘数据

自然语言处理（NLP）的学习方向

自然语言处理的图像文本建模相关研究及分析

NLA自然语言分析，助力解决数据分析的难题

自然语言理解问答对话文本数据，赋予计算机智能交流的能力

自然语言处理模式的优点

ASR与自然语言处理的结合

自然语言处理与机器学习的关系自然语言处理的基本概念及步骤

如何使用自然语言处理分析文本数据