如何在Python中进行Elasticsearch操作？-德赢Vwin官网网

什么是ElasticSearch？

ElasticSearch（ES）是一个建立在Apache Lucene之上的高度可用的分布式开源搜索引擎。它基于Java构建的，因此可用于许多平台。数据以JSON格式非结构化存储，这也使其成为一种NoSQL数据库。与其他NoSQL数据库不同，ES还提供搜索引擎功能和其他相关功能。

ElasticSearch用例

ES可用于多种目的，下面给出了其中的几个：

你运营着提供大量动态内容的网站，比如电子商务网站或者博客。通过实施ES，你不仅可以为Web应用程序提供强大的搜索引擎，还可以在应用程序中提供原生自动补全功能。

你可以获取不同类型的日志数据，然后可以使用它来查找趋势和统计信息。

设置和运行

安装ElasticSearch最简单的方法就是下载并运行可执行文件。必须确保使用的是Java 7或更高版本。

下载后解压缩并运行它的二进制文件。

如何在Python中进行Elasticsearch操作？

滚动窗口中会出现很多文字。如果你看到像下面这样的，那么它应该是完成了。

如何在Python中进行Elasticsearch操作？

但是，由于眼见为实，通过cURL 查看类似于这样的欢迎界面以便你知道确实成功安装了：

如何在Python中进行Elasticsearch操作？

在我开始访问Python中的Elastic Search之前，我们来做一些基本的东西。正如我提到ES提供了一个REST API 接口，我们将使用它来执行不同的任务。

基本示例

你要做的第一件事就是创建索引。一切都以索引形式存储。RDBMS概念中索引相当于一个数据库，因此不要将它与你在RDBMS中学习的典型索引概念混淆。使用PostMan来运行REST API。

如何在Python中进行Elasticsearch操作？

如果它成功运行，你会看到如下所示的回应：

如何在Python中进行Elasticsearch操作？

所以我们使用company为名创建了一个数据库。换句话说，我们创建了一个名为“company”的索引。你将看到如下所示的内容：

如何在Python中进行Elasticsearch操作？

暂时不用管mappings是什么，我们会在后面讨论它。它实际上做的只是创建一个你自己的Schema文档。creation_date是不言自明的。number_of_shards表示将保留此索引数据的分区数量。将整个数据保存在单个磁盘上毫无意义。如果你运行的是多个Elastic节点的集群，那么整个数据都会被分割。简而言之，如果有5个分片，则整个数据可以在5个分片中使用，并且ElasticSearch集群可以服务来自其任何节点的请求。

副本讨论的是你的数据的镜像。如果你熟悉主从概念，那么这对你来说不应该是新事物。你可以了解更多关于基本ES概念。

创建索引的cURL版本是单线程的。

如何在Python中进行Elasticsearch操作？

你也可以一次执行索引创建和记录插入任务。你所要做的就是以JSON格式传递你的记录。你可以在PostMan中使用下面的东西：

如何在Python中进行Elasticsearch操作？

请确保你将Content-Type设置为application/json.

一个名为company的索引会被创建如果它原本不存在的话，然后在这里创建一个名为employees的新类型。Type实际上是RDBMS中的表的ES版本。

上述请求将输出以下JSON结构：

如何在Python中进行Elasticsearch操作？

你传递/1作为你的记录的ID，但这是不必要的。它所做的只是将_id字段设置为值1，然后数据以JSON格式传递，最终作为新记录或文档插入。

如何在Python中进行Elasticsearch操作？

你可以看到元和实际记录。

cURL版本将是：

如何在Python中进行Elasticsearch操作？

如果你想更新该记录怎么办？这很简单。你所要做的就是改变你的JSON记录。如下所示：

如何在Python中进行Elasticsearch操作？

它会生成以下输出：

如何在Python中进行Elasticsearch操作？

注意现在_result字段设置为updated而不是created。

当然，你也可以删除某些记录。

如何在Python中进行Elasticsearch操作？

如果你疯了，或者你的女朋友甩了你，你可以通过从命令行运行curl -XDELETE localhost:9200/_all来毁掉整个世界。

让我们做一些基本的搜索。它将搜索employees类型下的所有字段并返回相关记录。

如何在Python中进行Elasticsearch操作？

max_score字段表示记录的相关性，即记录的最高分数。如果有多个记录，那么它会是一个不同的数字。

你还可以通过传递字段名称将搜索条件限制到某个字段。

我刚刚介绍了基本的例子。ES可以做很多事情，但是希望你自己通过阅读文档来进一步探索它，而我将继续介绍在Python中使用ES。

在Python中使用ElasticSearch

说实话，ES的REST API已经足够好了，可以让你使用requests库执行所有任务。不过，你可以使用ElasticSearch的Python库专注于主要任务，而不必担心如何创建请求。

通过pip安装它，然后你可以在你的Python程序中访问它。

如何在Python中进行Elasticsearch操作？

为确保它的安装正确，请从命令行运行以下基本片段：

如何在Python中进行Elasticsearch操作？

网页搜索和Elasticsearch

我们来讨论一下使用Elasticsearch的一些实际用例。我们的目标是访问在线食谱并将它们存储在Elasticsearch中以用于搜索和分析。我们将首先从Allrecipes中获取数据并将其存储在ES中。我们还将创建一个严格的模式或映射，以便我们确保数据以正确的格式和类型进行索引。最后只要列出沙拉食谱的清单。我们开始吧！

获取数据

如何在Python中进行Elasticsearch操作？