菜鸟驿站是如何实现详细地址的省市区街道区分的?教你使用Python完成地址的模糊匹配

举报
格图洛书 发表于 2021/12/30 01:36:29 2021/12/30
【摘要】 摘要:正如题目中说的一样,这个程序的目的是地址的模糊匹配,也可以迁移到房产信息、电话号码之类的字段上。本来的应用场景是反团伙欺诈以及失联客户的修复,大概的意思就是说多个相同公司的同事都在我公司借贷的欺诈可能性要高于其他客户,以及造假的房产信息和电话号码可能不完全相同,但有一定的相似性,我们需要把这些客户找出来,但是又不能用精确匹配。...
  • 摘要:正如题目中说的一样,这个程序的目的是地址的模糊匹配,也可以迁移到房产信息、电话号码之类的字段上。本来的应用场景是反团伙欺诈以及失联客户的修复,大概的意思就是说多个相同公司的同事都在我公司借贷的欺诈可能性要高于其他客户,以及造假的房产信息和电话号码可能不完全相同,但有一定的相似性,我们需要把这些客户找出来,但是又不能用精确匹配。因为存在问题的房产信息和电话可能只是相似,而不是完全相同;对于公司名和地址来说,就更糟糕一些,即使是真实的信息,但同一个公司的叫法可能会多种多样,如果麻烦一些,还要建一个同义词库。而我们做的工作还没有那么全面,只是提取出了公司名中的关键词。
  • 而做评分卡模型也需要用到这个思想。因为评分卡的其中一个字段就是所在城市等级,这就需要从原始数据的地址中提取出城市信息,但地址的格式又不够标准,因为信息是客户人工填写的,举个例子,“山东省济南市”也有可能被写成“山东济南”,所以一个正则表达式就不足以解决这个字段提取的问题了。

    总结一下,模糊匹配的两个应用场景: 
    1)构建反欺诈知识图谱 
    2)评分卡提取所需字段

    地址处理的基本思路就是建立一个标准库,对地址逐个进行对比,再返回结果和置信度,所以词库的建立是地址处理的关键。

    下面是解决问题的过程:

    第一步,提取公司名中的关键字

  • 首先,要分析一下数据库中公司名的形式:“浙江杭州立多林贸易有限公司”,“汇川区万全兄弟购物中心”,“温州雪龙集团有限公司北京销售分公司”…… 
    经过分析,可以看出,公司名大致分为3个部分:1、省市区名称;2、关键词+公司属性;3、分公司或分局等信息。

    首先,需要使用python连接到数据库,取出公司名字段: 
    1、下载并安装psycopg2模块,下载链接如下: 
    http://www.stickpeople.com/projects/python/win-psycopg/ 
    安装完毕后,输入下面语句,连接数据库:

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/84983698

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。