地名地址

2024-07-08

地名地址 篇1

关键词:地理编码,地址模型,要素拆分

1地名地址匹配原理分析

地名地址匹配,也就是地理编码,是指按照给定的地址表格要求标准化地理位置坐标的过程,即将自然语言描述的地址转化为地理坐标的过程,最终能通过空间属性数据检索到实体的确定位置。

实现地名地址匹配一般需要下面二个步骤:第一步,拆分和标准化待匹配的地址字符串;第二步,将已经标准化的关键地址值和数据库中的地理实体进行关联,如果关联成功,就把地理实体坐标更新到属性数据中的相应记录。这样就完成了对该记录的地名地址的匹配。

在匹配过程中,需要两种类型的数据,一种是地理位置实体信息,如街道地址、邮政编码、门牌号、标志物名等;另一种是在匹配过程中起空间参考作用的地图定位信息(即空间坐标),如街道地图数据、邮政编码地图数据、门牌号地图数据、标志物名地图数据等,完成匹配后,给前者赋予地理空间坐标,这也是地址匹配模型构建中最核心的部分。

地名地址匹配实现应具备三个要素:第一,明确需要匹配的地理对象,因为不同的地理对象需要采用不同的处理方法;第二,有确定的参考系统,参考系可以基于坐标或者基于地理标示;第三,必须要建立地址标准化模型,该模型决定了地址数据库的结构、地址拆分的标准、地址匹配的准确度等。

2模型构建关键技术

由于中文地名地址存在着很多遗留问题,并不如国外的地址规范,因此想要通过人工归纳获取语法规则是不现实的,而且不同的文法规则可能会存在矛盾,例如行政区划规定必须包含“市、区、镇、村”,但“重庆市南岸区学府大道9号学府锦园”这条地址是完全正确的,因为很多街路巷有可能跨镇,所以并不存在那条路必须属于哪个镇的说法,这就意味着为了解决这种矛盾需要说明不同规则特定的使用环境,有些特殊现象可能每增加一个新的地址都需要增加一些文法,这大大增加了算法的复杂度。在此基础上,基于统计的语义分析方法应运而生。

基于统计的中文语义地址模型由语义块和句式共同构成,语义块即通过地址分割获得的地址要素,句式是指地址要素构成地址的规则,即地址要素间的空间关系,因此构建地址模型的技术路线如图1所示:

2.1地名地址要素分类

地名地址是位置或区域的结构化文字描述方式,地址模型是对地址的抽象表达,而地址要素就是模型的最小语义单元,例如“学府大道”就是一个地址要素,如果拆分为“学府”和“大道”,虽然都能构成词,但在该条地址中就不具备实际意义了。无论是地址清洗、解析、分词或匹配,都必须按照一定的标准,而这个标准就是由若干个地址要素构成的。若忽略地址要素间的空间关系,则地址模型由一系列语义块组成,即地址要素,故重庆市中文语义地址模型的扁平化表达为:

地址=[地址要素](1~N)(1)

式中N指该地址可以达到的粒度。

单独的地址要素不具有实际意义的,只有经过分类后具有类型标识的地址要素才能用于空间关系分析,这就是地址要素标注的过程。《地名地址数据规范》(2010)中规定地址要素包括行政区划、地址、子地址。

2.2地名地址拆分

地名地址要素是地址模型的最小单元,因此构建模型的第一步是将地址拆分成地名地址要素。一般的拆分方法有两种:基于字符串匹配的拆分方法和基于规则的拆分方法。

基于字符串匹配的拆分方法比较机械,根据拆分的方向不同有分为正向匹配和逆向匹配;或者根据优先匹配的字符串长度的不同,分为最小匹配和最大匹配。由于地址数据从左往右存在不可逆的顺序,因此采用最大正向匹配效果最佳,该方法是国内最常用的分词方法。但由于自然语言的复杂性,这种简单的机械分词方式不能解决以下问题:

1)地址要素拆分时存在歧义,相同的词在不同的地址中可能代表了不同的地址要素,有不同的切分方法,故最大正向匹配算法得到的唯一结果并不一定是正确的,由此可以看到,一个好的分词方法必须要有歧义字段切分策略。

2)由于中文本身的特点,人工归纳的地址要素表中不可能包含所有的地址要素,未包含的地址要素被称为未登陆词,未登录词不能通过词库的匹配找出,因此未登录词的识别也是分词方法需要考虑的问题。

基于规则的分词方法是利用自然语言语法、句法的分析来进行分词,在自然语言理解的基础上进行分词,从而一定程度上消除歧义。语法规则、词性、构词方法等都是人类学习语言的工具,而恰恰这些规则又很容易用计算机的算法描述,收集所有地址中可能出现的歧义字段,形成一个歧义字段库,根据所建立的歧义字段信息消除歧义,确定分词结果,这是一种人工智能的分词方式。

综上,如果地址模型构建过程中,地址数据较为规范,我们可以直接利用基于字符串匹配的分词方法进行划分;而待匹配地址来源较为复杂,地址描述不规范的则利用基于字符串匹配的分词方法,然后结合基于规则的分词方法完成地名地址拆分。

2.3地名地址要素空间关系

理论上,地址所描述的位置应与某个地理实体重叠,而地址要素与地理实体之间存在着包含、隶属等复杂的嵌套关系。具体关系如下:

1)区域间的包含关系,如重庆市包含渝北区;

2)区域间的相邻关系,如龙山街道与龙溪街道相邻;

3)道路间的邻接关系,如新溉大道与加州路邻接;

4)方位关系,点位之间的相对方向;

5)距离关系,点位之间的相对距离关系,其中后两种涉及较少。

地址要素一般存在一定排列顺序,传统的地址模型基本上采用人工归纳地址规则。但随着地址规则的增加,不同规则间会出现重复或矛盾。在建立地址模型时,我们从地址要素间的空间关系出发,利用机器自我学习的方式构建自适应的地址模型。

2.4分类条件概率计算

假设S表示一条原始地址串,Wi则表示每个组成的地址要素,则有

式中

P(S)——地址串S成立的概率。

利用条件概率公式展开得到

式中

P(W1)——第一个地址要素出现的概率;

P(wi|wi-1)——第i-1个地址要素出现的前提下第i个地址要素出现的概率。

这里的条件关系其实也受到地址要素间空间关系的约束。单纯从计算上来看,组成地址串的地址要素越多,其条件概率就越难估计,因为P(wi)和前面i-1个地址要素都相关,可能性太多。因此我们可以利用马尔克夫假设,假设任意一个地址要素出现的概率只同它前面的地址要素有关,则式(3)可以简化成为式(4),这就是二元统计语言模型。

根据条件概率的定义

因此获取P(S)的问题转换为了估计每个地址要素的联合概率和边缘概率问题。根据大数定理,只要统计量足够大,相对频率可以等于概率。也就是说,在有足够的地址数据时,只需要数出当前地址要素和前一地址要素前后相邻出现的次数,以及当前地址要素出现的次数即可。

2.5模型平滑

上述获取条件概率的过程就是训练模型的过程,但是与无论多高级的模型都无法概括所有语言现象一样,无论有多少地名地址数据,都不能保证包含了所有的要素,此获取的条件概率为0,这种现象在统计语言模型中被称为“不平滑”,此时则需要一个新的估算概率的公式,即古德-图灵估计,其核心思想为:从概率的总量中分配一个很小的比例给所有没有看见的事情。在这里,“没有看见的事”就是未登陆词。由于地名地址数据是有限样本,因此未登录词的问题是不可避免的,因此进行模型平滑,以减弱未登陆词对模型构建效果的影响是很有必要的。

对于出现次数非常少或为0的二元组(Wi-1,Wi),按照平滑思想,使所有已出现情况的条件概率小于1,差值则可以赋予未出现的情况,公式如下

式中,

T——阈值,一般为8~10;

同时为了保证式(6)成立,应有

3结语

本文在分析重庆市地址结构和规律的基础上,提出的这种地址匹配模型构建的算法,能较好地解决绝大多数非空间坐标地址的匹配问题。但本文的办法也有局限性,要求地址数据全面并且标准,如果标准地址库不全或者不完善,将会较大地影响匹配结果

从实际分析结果来看,匹配模型对方位词、非标准地址、未登陆地址要素或者其他词的识别率比较低。原因是地址的拆分完全按照词库,不能对其他词或者地址要素进行识别,对于复杂的地址更难以解析。同时要你能解决这些问题,除了要建立一个标准的完善的地址要素库外,还需要增强对自然语言处理能力。

参考文献

[1]江洲,李琦.地理编码(Geocoding)的应用研究[J].地理与地理信息科学,2003,19(3):21-25.

[2]肖振强.城市地址信息空间化的原理及方法研究[D].山东科技大学,2011.

[3]宋启凡,王强,戚文华.地址编码标准化研究[A]//中国测绘学会.中国测绘学会2010年学术年会论文集[C].中国测绘学会,2010:4.

[4]于滨.面向经济普查项目需求的模糊中文地址匹配方法研究[D].中南大学,2010.

[5]叶海波.城市地址编码的技术及应用[D].中国石油大学,2009.

标准地名地址库建设调研报告 篇2

率的城市标准地名地址信息数据库,最终实现地名数字化管理,有利于提高地名信息资源的利用率和社会经济效益,为知识经济时代创造新的增长点。

党的十六届六中全会作出了关于构建社会主义和谐社会若干重大问题的决定,明确提出到2020年基本公共服务体系更加完备,政府管理和服务水平有较大提高的目标。这就对地名公共服务在内的各项公共事业提出了新的更高的要求,实施地名公共服务工程、健全公共服务体系,是适应政府职能转变要求,进一步实现工作重心向服务型转变的重要举措。

一、标准地名地址库建设在智慧北仑建设中的意义

随着北仑“智慧城市”建设的开展,各行业数据库、信息资源交换和服务共享体系建设陆续展开。地名地址数据库建设是开展多种形式地名信息服务的基础和前提,如地名语音查询、地名网站建设、地名信息触摸屏设置、电子地图建设、“地名信息查询服务系统”建设等。地名信息标准化、数字化是地名为公众服务最高效、最便捷的手段,是全区公共信息服务效能和“智慧北仑”建设最基础的社会公共信息资源。不仅能方便大家查询地名信息,而且可与城市经济信息、应急联动、智能交通信息等系统联动,成为城市“救命线”,真正实现城市的“智能化”。

二、全域城市化形势下地名标准化数字化建设的现状

虽然我国地名管理工作取得很大成绩,但还存在明显的问题。地名标准化数字化进程缓慢,跟不上信息化现代化建设的步伐,具体表现如下:

1、部门之间协调不够,城乡规划与地名规划严重脱节,各部门登记备案的街、巷、道路名称不统一;

2、地名管理工作不够规范,如地名标志设置不符合国家标准、地名更新维护不及时、申报、登记、审批手续不规范,出现有路无名、有名无牌、有门无号的现象;

3、地名档案管理手段落后。存在人员配备不齐、条件设施简陋、管理模式落后、手段原始单一,要素不全、数据陈旧,甚至出现毁损或丢失的现象,严重影响了地名档案的开发利用;

4、地名信息化建设滞后。一些地方只有纸质地名资料,尚未借助信息化设备进行成果转换处理,开发利用率低,致使地名公共服务体系不配套、不完整,不能较好地服务于社会和方便群众。

三、北仑区地名管理工作的现状

随着城市化进程加快,新老地名更替速度加快,信息化建设的推进也使北仑区地名档案管理工作面临前所未有的挑战,已有的地名数据和管理手段远远不能满足当前经济社会发展的需要.具体如下:

1、地名管理工作不够规范,包括办理手续不规范、登记备案制度不健全,随意性强,数据存在"缺、漏、错、乱"现象。地名要素不全;地名存在错别字,地址信息与建筑实体不符;新、老地名、标准和非标准地名并用,如“大碶”和“大矸”、“霞浦”和“亚浦”混用;不规范的缩略数据缺乏专指性,如将“新碶镇新大路1#商住楼”缩略为“新大路商住楼”等。

2、地名档案管理手段落后。早期我区地名工作人员少,且未经专业性培训,地名管理工作缺乏技术支撑,地名建设缺少系统性和规范性保障;我区地名管理工作长期以来采用纸质化办公,纸质地名数据未经数字化处理,不利于地名数据的开发和利用,更谈不上地名信息共享,这是地名公共服务体系建设中一个丞待解决的“瓶颈”。

四、北仑区标准地名地址库建设的几点建议

地名信息是重要的社会基础公共资源,完整、准确的地名信息能够保证社会各界信息传递的准确性和高效率。开展标准地名数据库建设,发挥地名信息化服务功能,积极推动智慧北仑的建设,能有效解决以上问题。、组织保障,抓好地名地址库工作队伍建设

积极争取党委、政府对地名工作的支持,加强组织领导,成立北仑区标准地名地址库建设领导小组,积极发挥领导小组的组织协调作用,建立多个职能部门协作的地名地址库建设机制。地名工作是一项政策性、专业性和技术性很强的工作,这就要求广大地名工作者既要了解人文、历史、地理、社会、文化等知识,又要熟悉有关地名方面的政策、法规,并重视地名管理干部的培养使用。

2、统一标准,建立完善规范的数据标准体系

加强地名法规建设、依法管理地名,是地名工作走向法制化、规范化、标准化轨道的重要途径。以国务院《地名管理条例》、民政部《地名管理条例实施细则》为依据,结合宁波市编码标准,会同建设、规划、公安、房管等部门统一制定地

名地址编码规则和数据采集、录入规范,修改完善适合我区的《地名管理条例》、《地名标志管理办法》、《门牌号码编码规则》、《地名命名、更名程序》等地方性法规文件,建立完善规范的数据标准体系,确保地名规则有章可循、有法可依。、部门协调,把好地名地址数据标准化关口

地名主管部门与经常性地与建设、规划等部门保持联

系,把地名规划纳入城乡总体发展规划范畴,编制符合北仑区情况的地名规划方案。地名主管部门根据国家地名法律法规和宁波市地名相关规范对现有地名数据进行整合梳理和完善,对使用门楼牌号的单位和个人,严格把关,禁止私自编制地名地址信息;规划部门对新建建筑物进行规划竣工验收时要求建设单位必须填报已领取的门楼牌号。

4、数据入库,建立高效、便民的地名信息资源共享体系。

建立标准地名地址数据库,各相关部门根据工作职能和建库需要,及时向地名主管部门提供地名地址信息数据。标准地址库建成后,地名主管部门负责地名数据库的维护和更新,并通过政务网络建立地名信息共享系统,实现地名成果信息资源共享。以该数据库为支撑,积极推动地名公共服务体系建设,如开通地名信息查询网、公共场所设置地名信息查询触摸屏等,使地名信息化建设成为一项服务群众的便民工程,努力发挥地名信息化服务功能,积极推动智慧北仑的建设。

五、结语

上一篇:层级影响因素下一篇:后续管理问题