1 Python pacp模块:自动识别文字中的省市区并将其绘图-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Python pacp模块:自动识别文字中的省市区并将其绘图

python爬虫知识分享 来源:python爬虫知识分享 作者:python爬虫知识分享 2022-06-27 17:19 次阅读

一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块。

举个例子:

["徐汇区虹漕路461号58号楼5楼", "泉州市洛江区万安塘西工业区"]
        ↓ 转换
|省    |市   |区    |地址                 |
|上海市|上海市|徐汇区|虹漕路461号58号楼5楼  |
|福建省|泉州市|洛江区|万安塘西工业区        |

注:“地址”列代表去除了省市区之后的具体地址

也可以将大段文本中所有提到的地址提取出来,并且自动将相邻的存在所属关系的地址归并到一条记录中(0.5.5版本新功能):

"分店位于徐汇区虹漕路461号58号楼5楼和泉州市洛江区万安塘西工业区以及南京鼓楼区"
        ↓ 转换
|省    |市   |区    |
|上海市|上海市|徐汇区|
|福建省|泉州市|洛江区|
|江苏省|南京市|鼓楼区|

代码目前仅仅支持python3

pip install cpca

注:cpca是chinese province city area的缩写

如果觉得本模块对你有用的话,施舍个star,谢谢。

常见安装问题:

在 windows 上可能会出现类似如下问题

Building wheel for pyahocorasick (setup.py) ... error

先去下载 Microsoft Visual C++ Build Tools, 安装完成后,再重新使用 pip install cpca 安装,即可解决问题

开始使用

本模块中最主要的方法是cpca.transform,该方法可以输入任意的可迭代类型(如list,pandas的Series类型等),然后将其转换为一个DataFrame,下面演示一个最为简单的使用方法:

location_str = ["徐汇区虹漕路461号58号楼5楼", "泉州市洛江区万安塘西工业区", "北京朝阳区北苑华贸城"]
import cpca
df = cpca.transform(location_str)
df

输出的结果为(adcode为官方地址编码):

   省     市    区          地址              adcode
0 上海市 上海市  徐汇区     虹漕路461号58号楼5楼  310104
1 福建省 泉州市  洛江区     万安塘西工业区        350504
2 北京市 市辖区  朝阳区     北苑华贸城           110105

如果你想获知程序是从字符串的那个位置提取出省市区名的,可以添加一个pos_sensitive=True参数

location_str = ["徐汇区虹漕路461号58号楼5楼", "泉州市洛江区万安塘西工业区", "北京朝阳区北苑华贸城"]
import cpca
df = cpca.transform(location_str, pos_sensitive=True)
df

输出如下:

     省    市    区        地址               adcode        省_pos  市_pos 区_pos
0  上海市  上海市  徐汇区  虹漕路461号58号楼5楼   310104     -1     -1      0
1  福建省  泉州市  洛江区  万安塘西工业区         350504     -1      0      3
2  北京市  市辖区  朝阳区  北苑华贸城            110105     -1     -1      0

从大段文本中提取多个地址(0.5.5版本新功能):

import cpca
df = cpca.transform_text_with_addrs("分店位于徐汇区虹漕路461号58号楼5楼和泉州市洛江区万安塘西工业区以及南京鼓楼区")
df

结果为(注意 transform_text_with_addrs 获得的数据,“地址”列都是空的):

    省     市     区    地址   adcode
0  上海市  市辖区  徐汇区       310104
1  福建省  泉州市  洛江区       350504
2  江苏省  南京市  鼓楼区       320106

transform_text_with_addrs 还支持和 transform 类似的 index, pos_sensitive 以及 umap 参数

绘图:

模块中还自带一些简单绘图工具,可以在地图上将上面输出的数据以热力图的形式画出来.

这个工具依赖folium,为了减小本模块的体积,所以并不会预装这个依赖,在使用之前请使用pip install folium .

代码如下:

import cpca
from cpca import drawer
df = cpca.transform_text_with_addrs("分店位于徐汇区虹漕路461号58号楼5楼和泉州市洛江区万安塘西工业区以及南京鼓楼区")
drawer.draw_locations(df[cpca._ADCODE], "df.html")

绘图展示

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动识别
    +关注

    关注

    3

    文章

    221

    浏览量

    22831
  • python
    +关注

    关注

    56

    文章

    4792

    浏览量

    84627
收藏 人收藏

    评论

    相关推荐

    垃圾短信?手机自动识别垃圾短信逻辑的分析

    作者:京东科技 贾玉龙 1 背景 随着智能手机的普及和移动互联网的发展,短信作为一种传统的通讯方式,仍然保持着其独特的地位。然而,随着垃圾短信的泛滥,手机自动识别垃圾短信的技术也在不断进步。对于提供
    的头像 发表于 12-16 10:19 115次阅读

    Arduino采集雷达模块数据与串口绘图

    Arduino采集雷达模块数据与串口绘图
    的头像 发表于 12-14 11:44 145次阅读
    Arduino采集雷达<b class='flag-5'>模块</b>数据与串口<b class='flag-5'>绘图</b>

    客流统计自动识别摄像头

    随着城市化进程的加快和商业活动的日益繁荣,客流统计成为了商家和城市管理者关注的重要指标。为了更精准地获取客流数据,客流统计自动识别摄像头应运而生,成为现代商业和公共管理不可或缺的工具。客流统计
    的头像 发表于 12-10 15:32 133次阅读
    客流统计<b class='flag-5'>自动识别</b>摄像头

    中国物品编码中心一行莅临新大陆自动识别参观调研

    近日,中国物品编码中心总工程师李建辉,中国物品编码中心产品运营开发部副主任、中国自动识别技术协会秘书长方方等一行莅临新大陆自动识别公司参观调研。福建省标准化研究院副院长林孟朝、福建省标准化研究院编码应用研究所所长周顺骥陪同调研。新大陆
    的头像 发表于 11-19 09:32 210次阅读

    MCU串口自动识别波特率原理分析

    现在的单片机资源越来越丰富了,其中我们常用的串口也是内部集成了多个,关键功能也越来越强了。 我们有些应用可能会用到串口自动识别波特率,今天就来讲讲MCU串口自动识别波特率底层的常见的原理,以及MCU的案例。
    的头像 发表于 10-23 16:12 517次阅读
    MCU串口<b class='flag-5'>自动识别</b>波特率原理分析

    PCM9211的默认模式下,ADC和RXIN2( 光纤输入)是自动识别的吗,并且光纤具有输入优先级?

    咨询一下,PCM9211的默认模式下,ADC和RXIN2( 光纤输入)是自动识别的吗,并且光纤具有输入优先级?
    发表于 09-29 06:44

    智能化升级:机载无人机摄像头如何自动识别目标?

    机载无人机摄像头在智能化升级的过程自动识别目标的能力得到了显著提升。这一过程涉及多个关键技术和算法,以下是关于机载无人机摄像头如何自动识别目标的详细解析: 一、图像采集与预处理 高清摄像头
    的头像 发表于 09-19 15:23 519次阅读
    智能化升级:机载无人机摄像头如何<b class='flag-5'>自动识别</b>目标?

    光学识别字符是自动识别技术吗

    光学识别字符(Optical Character Recognition,简称OCR)是一种自动识别技术,它能够将各种类型文档(如扫描的纸质文档、PDF文件或数字相机拍摄的图片)文字
    的头像 发表于 09-10 15:43 439次阅读

    水位自动识别摄像机

    随着科技的不断发展,水位自动识别摄像机作为一种智能技术产品,正在逐渐应用于各种领域,为监测水位提供了更加便捷、准确的方法。这种摄像机可以自动识别水位的高低,实时监测水域情况,为防洪排涝、水资源
    的头像 发表于 07-31 10:34 363次阅读
    水位<b class='flag-5'>自动识别</b>摄像机

    多光谱明火自动识别摄像机

    当今社会,火灾事故频发,给人们的生命财产带来了严重的危害。为了提高火灾预警和应急处置的效率,多光谱明火自动识别摄像机应运而生。这种先进技术结合了多光谱成像和人工智能技术,可以实时监测周围环境并
    的头像 发表于 07-27 15:24 327次阅读
    多光谱明火<b class='flag-5'>自动识别</b>摄像机

    RFID军标单装自动识别铭牌 - 提升效率首选

    RFID军标单装自动识别铭牌标签是专为军事领域设计的一款高规格、自动识别、及时反馈的设备,它主要采用RFID射频识别技术的军标标签,具有卓越的安全性能和稳定性。
    的头像 发表于 06-19 15:10 561次阅读
    RFID军标单装<b class='flag-5'>自动识别</b>铭牌 - 提升效率首选

    自动识别水位预警摄像机

    自动识别水位预警摄像机是现代城市水域安全管理的重要组成部分。这种摄像机具有多项功能,使其在水位监测和异常情况识别方面发挥关键作用。其高清摄像头能够捕捉水位变化的细节,提供精确的监控画面。这意味着
    的头像 发表于 06-07 10:47 547次阅读
    <b class='flag-5'>自动识别</b>水位预警摄像机

    通道堵塞自动识别摄像机

    通道堵塞自动识别摄像机是一种利用先进的人工智能和图像识别技术来监测和识别通道堵塞情况的装置,广泛应用于交通管制、商场管理等领域。这项技术的出现极大地提高了通道管理的效率和准确性,为改善人们的出行
    的头像 发表于 06-05 10:54 326次阅读
    通道堵塞<b class='flag-5'>自动识别</b>摄像机

    护目镜佩戴自动识别预警摄像机

    护目镜佩戴自动识别预警摄像机是一种智能监测设备,专门用于佩戴护目镜的工人进行作业时,能够自动识别有潜在风险的场景,并及时发出预警信号。该摄像机配备人脸识别和智能预警系统,可以检测危险情况并为工人提供
    的头像 发表于 05-24 10:08 589次阅读
    护目镜佩戴<b class='flag-5'>自动识别</b>预警摄像机

    如何使用Python进行图像识别自动学习自动训练?

    如何使用Python进行图像识别自动学习自动训练? 使用Python进行图像识别
    的头像 发表于 01-12 16:06 573次阅读