档案信息计算机的检索七篇

2024-05-21

档案信息计算机的检索 篇1

一是信息存储量大、检索速度快、检索效果好。二是检索途径多元化。三是档案信息的检索对计算机系统的依赖性强。运用计算机检索档案信息的查全率、查准率与档案工作者、利用者熟练掌握计算机检索文档的知识及检索技能的掌握有着密切的关联, 特别是在档案信息服务经济建设和服务民生工作中, 要求档案工作者不仅要掌握计算机档案检索知识, 而且要向广大的利用者普及档案检索知识, 才能有效地提高档案信息的利用效益, 极大地扩展档案工作的社会影响力, 提高档案工作的社会地位。

二、档案计算机检索系统的建立

建立功能完善的档案计算机检索系统, 应科学地进行检索流程和档案信息检索级别设计。

(一) 计算机检索流程设计。

档案计算机检索流程包括档案文献信息的输入和档案文献信息的输出两部分, 具体流程如图所示。

1. 档案文献信息的输入。

计算机文献检索系统的基础是数据库的建立, 包括文献的选择、标引、加工和输入等一系列的过程, 数据库的数据数量和质量对于计算机检索系统的性能具有直接影响。为适应档案现代化管理需要, 建立统一的档案检索和管理体系, 更好地开发档案信息, 实现档案信息共享, 目前, 我国各省 (市) 国家档案馆均制定了《综合档案馆电子目录数据库结构与交换格式》。该标准分别制定了适用于文书立卷改革前的档案目录的《案卷级目录数据库结构与著录格式》和适用于按照DA/T22-2000《归档文件整理规则》整理的档案目录的《文件级目录数据库结构与著录格式》。文档管理系统机读目录输入规范, 采用19992月1日实施的《档案著录规则DA/T 18-1999》的著录项, 文档管理软件在案卷级著录和文件级著录选取的主要著录项目字段有:题名、并列题名、文件编号、责任者、附件、稿本和文种、密级与保管期限项、文件形成时间项、载体类型、数量及单位、分类号、档案馆代号、档号、电子文档号、缩微号、主题词或关键词。

2. 档案文献信息的输出。

利用者根据对档案文献的信息需求, 编制恰当的检索条件, 形成检索表达式, 并将其输入计算机, 在数据库查找后将结果输出。

(二) 档案信息检索级别设计。

检索级别是衡量检索深度和检索精度的重要标准。档案信息计算机检索, 检索级别越小、越低、内容越具体, 说明检索的精度越高、检索的深度越深。

1. 案卷级检索。

案卷级检索是指检索出的档案只能是案卷级目录, 而无法—次检索出其卷内的具体文件, 其检索依据是用案卷目录来建立的案卷级目录数据库。档案工作者都知道拟写案卷题名是一件比较困难的事情, 规定字数不能超过五十个汉字, 且题名要尽可能涵盖卷内文件的内容, 即案卷题名的内涵尽可能等于卷内文件的外延。由于档案工作者水平不一, 拟写的案卷题名涵盖不了该案卷所有的文件内容。检索文书档案内容方面, 档案馆 (室) 很少采用案卷级检索功能, 而在科技档案和专门档案检索中经常使用。

2. 文件级检索。

利用计算机检索工具不仅可以按著录项目进行单项检索, 还可以把若干项目结合起来检索, 均可检索出具体的文件 (即文件级检索) , 以满足利用者获取档案信息的需求。作为文件级检索, 是档案馆 (室) 经常采用的档案文献检索手段, 其具有一次输入、多次输出、多样化输出的功能。文件级档案文献的查准率和查全率, 取决于操作者对档案著录项目的组合而设置检索条件, 凡输入计算机的每一个检索著录条目为一个检索入口, 如把文件的责任者、题名、时间3项目结合起来检索, 可以获得满足这3个检索条件的档案文献。在检索工具中还可通过主题标引和分类标引的手段揭示出文件内容所涉及到的概念性主题或所属逻辑类别, 这类检索有时被称为“内容级检索”。但因文件内容不能脱离开文件而单独存在, 检索成果依然是一份份的文件, 所以“内容级”严格说起来无法成立, 只能归入“文件级”。

3. 全文检索。

全文检索是计算机程序通过扫描文章中的每一个词, 对每一个词建立一个索引, 指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找, 类似于通过字典的检索字表查字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。在功能上, 全文检索系统需要具有建立索引、处理查询返回结果集、增加索引、优化索引结构等功能。结构上, 全文检索系统具有索引引擎、查询引擎、文本分析引擎和对外接口等。全文检索弥补了文件级检索存在的不足之处, 因为有的文件标题拟写不准确, 或综合性的文件很难用标题完全表达, 造成了计算机误检或漏检现象时有发生。全文检索系统是自然语言处理技术与海量内容管理技术的完美结合, 它对网页、文本、电子文档和图像等非结构化的信息提供强大的管理功能, 能有效地解决以上问题。

4. 多媒体档案文献检索。

所谓多媒体档案, 是集声、光、电多种媒体于一体的档案。这种档案可以更真实地记录人们的社会活动, 实现高密度存储和远距离传输, 得到最为理想的利用效果。多媒体档案文献检索有案卷级检索和文件级检索, 案卷级检索可检字段有案卷题名、立档单位、主题词、起始年代、起始月份、起始日期。文件级档案目录的检索一二级分类与档案相同, 可检字段有文件题名、责任者、主题词、文件年代、文件月份、文件日期、文件代字、文件年号、文件编号。

三、档案信息计算机检索策略

运用计算机进行档案信息检索, 用户对档案信息的需求是精细的, 其感兴趣的是某一档案的具体内容, 即根据用户的查询表达式, 如通过电子档案著录项 (电子文档号、题名与责任者、密级与保管期限、时间项等) 在信息源中检索出相关类型的电子档案。档案检索策略是人们进行档案检索的方案和计划, 编制档案检索策略包括选择检索途径和检索词 (档案著项) , 及确定检索词 (档案著项) 之间逻辑关系。检索策略的编制是根据用户检索档案常用的逻辑思维式而制定表达方式, 在计算机档案信息检索模块最常用的有以下3种逻辑表达式。

一是通过计算机设置逻辑与关系 (AND的表达式, 限定档案内容之间的关系, 两个检索词之间一般用符号“*”表示, 用户输入计算机的检索词必须满足两个检索条件。例如, 检索有关员工绩效考核方面的档案信息, 在检索入口输入“员工*绩效考核”, 用来表示两个内容之间的重合关系, 对于专题与文件内容较为明确的情况下, 使用逻辑与关系有利于提高查准率。

二是采用逻辑或关系 (OR) 表示两个检索词之间的任选关系, 为档案信息利用人员提供模糊检索功能。检索档案信息一般在文件题名、文件编号和档号检索窗口使用“+”连接多个查询关键字, 满足档案信息利用者输入的关键字其中之一, 即可查询到相关的档案资料。例如:“档案+专业技术职务”表示检索有关档案人员评聘专业技术职务方面的档案资料。档案馆 (室) 日常的查询档案资料工作中, 在文件题名检索入口最经常使用的是逻辑或关系检索档案信息内容, 这种关系在检索入口使用越多, 那么计算机选择用户需求的档案资料范围就越大, 一般情况下使用逻辑或关系有助于提高查全率。

三是采用表示否定关系的逻辑非关系 (NOT) , 用排除法控制检索结果, 有利于提高查准率。例如:“教师———副教授”表示检索有关教师非副教授的档案资料。

以上三种不同逻辑的计算机检索法, 软件人员在设计档案检索程序时, 已经嵌入到档案管理软件的检索系统。档案利用人员检索档案信息时, 在检索入口灵活使用检索逻辑, 有助于提高档案信息的查准率和查全率。

四、档案信息计算机检索技巧

我国各地国家公共档案馆和机关、企事业单位档案 (馆) 室使用的文书档案管理系统, 都具有档案信息计算机检索功能。计算机档案信息检索模块最常用的逻辑与关系 (AND) 、逻辑或关系 (OR) 和逻辑非关系 (NOT) 3个表达式, 为计算机档案检索系统的编程规范。提供给档案信息获取者使用的检索界面, 基本上按照《档案著录规则DA/T 18-1999》的著录项设置检索入口。

在档案信息检索中, 掌握一些检索技巧能够极大地提高档案利用者档案信息检索能力。

(一) 题名表述准确。

档案信息计算机检索最基本同时也是最有效的技巧, 就是选择合适的检索词。档案检索系统会严格按照档案利用者提交的检索词去检索档案信息。为此, 检索词表达准确是获得良好检索结果的必要前提。常见错误是对档案信息的表达不准确。例如, 要查找《国有企业资产与产权变动档案处置暂行办法》, 检索词可以是“国有企业资产与产权变动档案处置暂行办法”, 如果把“暂行办法”检索词换成“管理规定”, 检索结果不能满足需求。另一类典型的表达是不能掌握不同历史时期档案文件的题名用语。例如, “知识青年上山下乡”, 在题名检索入口输入“知识青年农村劳动”, 就没有“知识青年上山下乡”的文件出现。还有一种类型是检索词中包含错别字。例如, 要查找“档案专业任职资格”, 用“档案专业任职资格”, 就可以检索出有关档案专业任职资格的档案, 但如果写错了字, 变成“档案职业任职资格”, 其检索准确率就达不到档案查询的指标要求。

(二) 正确选择档案信息检索项目。

档案软件检索界面, 基本上包含了《档案著录规则DA/T 18-1999》的所有项目, 但在档案馆 (室) 日常查询档案资料工作中, 并不是所有的机读著录条目都要输入检索条件。我们把机读著录条目按照使用频率分为三级:一级为使用频率较多的著录条目, 包含:题名、文件编号、责任者、档号、文件形成时间项。二级为使用频率一般的著录条目, 包含:分类号、档案馆代号、电子文档号、缩微号、主题词或关键词、密级与保管期限。三级为使用频率较少的著录条目, 包含:并列题名、附件、稿本和文种、项载体类型、数量及单位。

(三) 检索词的主题关联与简练。

为提高档案信息资料的查全率, 在文件题名检索入口把查询档案的主题提炼成简单的, 而且与希望找到的信息内容主题关联的检索词, 档案利用者最好学会使用两个关键词检索, 两个关键词中间用“+”关联, 并且合理地与使用频率较多的一级著录条目进行检索条件组合。例如, 查询《城市建设档案归属与流向暂行办法》档发字 (1997) 20号, 国家档案局1997年7月28日印发。检索条件组合如下:

题名:“城市+建设档案+归属”

责任者:国家档案局

时间:199701-199812

或题名:“城市建设+档案+流向”

文件编号:档发字 (1997)

时间:19970101-19971231

输入检索主题的质量关系到文件的查准率。实践中得出经验, 题名检索入口每个关联词组不要超多5个汉字, 因为大多数的档案利用者输入汉字越多与计算机文件级数据库匹配运算吻合机率越低。在档案检索中, 档案信息利用者要养成使用多个关键词检索的习惯, 在档案信息检索时大多数情况下使用两个关键词检索已经足够了, 关键词与关键词之间以”+”隔开, 关键词以2至4个汉字为宜。

档案信息计算机的检索 篇2

1、信息检索的分类

信息检索 (Information Retrieval, IR) 是指信息按照一定的方式组织起来, 并根据信息用户的需求查找出有关信息的过程。我们通常指的是该过程的后半部分, 即信息的查找。信息检索分为手工检索和计算机检索。

1.1 手工检索

手工检索主要是以纸质材料为载体。手工检索可以分为两大类:一是资料型的, 所用载体有辞典 (如:《中药大辞典》) 、药典 (如:《中华人民共和国药典》) 、百科全书、手册、大全等;另一类是检索型的, 如目录 (如:《中文科技资料目录》、索引 (如:《中国科技期刊中医药文献索引》) 、文摘 (如:《中国药学文摘》、《中国药品检验文摘》、《分析化学文摘》、美国《化学文摘》 (Chemical Abstracts简称CA) 、《国际药物文摘》 (International Pharmaceutical Abstracts简称IPA) ) 、综述等。

1.2 计算机检索

计算机检索是依托现代计算机技术和网络技术以数字化的形式通过电信号、光信号传输信息的检索方法。包括数据库检索和计算机网络检索。其中, 计算机网络检索是应用最广泛的一类检索方式, 是指通过远程通讯方式进行计算机信息交换与数据库存取的方式检索信息, 可分为三种:一是目录型检索, 即提供按类别编排的因特网站目录的分类目录浏览检索;二是搜索引擎检索, 即提供关键词查询网站及网页信息的关键词查询检索, 如今运用最广泛的搜索引擎, 如:Yahoo!中国、Google、百度、搜狗、新浪等搜索引擎, 可以查询各种各样、各行各业的信息, 只要输入所要查询的关键词就行了, 使用起来非常方便;三是混合型检索, 兼有分目录型检索和搜索引擎检索两种方式, 既可以浏览分类目录了解某个领域范围的信息, 又可以直接输入关键词查找特定信息[1]。

计算机检索一般数据完备、检索手段先进、检索快速, 因而受到广泛的欢迎, 目前很多手工检索正向计算机检索转换, 而且发展非常迅速。《中国药学文摘》、《中国药品检验文摘》、《分析化学文摘》除印刷版外, 还提供光盘数据库, 其中《中国药学文摘》、《分析化学文摘》还提供网络数据库。

2、信息检索的方法

信息检索的方法很多, 应根据检索要求, 设备条件的不同采取相应的检索方法:

2.1 常规法

常规法就是利用各种检索工具进行查找文献信息的方法, 因这些方法常被使用, 故又称"常规法"。常规法又分为顺查法、倒查法和抽查法。

2.1.1 顺查法

顺查法市按时间由远及近检索信息的一种方法。此方法需掌握已知课题所涉及的信息资料产生的时间, 故需从最初年代开始, 逐期、逐年由远而近查找, 顺查法的差全率较高。

2.1.2 倒查法

倒查法是从时间上由近而远进行追溯性检索信息资料的一种方法。它与顺查法正相反, 利用检索工具, 由近及远逐年、逐卷进行查找, 直到查到所需要的信息质量为止。

2.1.3 抽查法

抽查法是按课题研究的需要, 抽查一定时期、一定内容的信息资料的一种方法, 它对于研究某一历史阶段的课题非常重要。

2.2 直接查找法

直接查找法是由药学人员直接阅读原始文献并从中获得所需文献的方法。不少药学人员习惯利用该方法从本专业的核心期刊或其他类型的原始文献中直接查找最新的文献资料。其优点是所获得的资料比较直接, 可深入了解文献内容实质, 并对是否合乎需要做出立即判断。不过, 在当前文献数量庞大、类型复杂及发表分散的情况下, 单凭这种方法根本无法做到全、快、准地查获所需资料。因此, 只能作为利用检索工具查找文献的一种辅助方法。

2.3 引文追溯法

这是一种较传统的获取文献的方法。它主要以论文著者在文章后所出附的参考文献 (Reference Literature) 为基础进行追溯查找。这在某种程度上可以扩大文献来源。当然, 利用该法进行追溯查找也能获得一些所需要的文献资料。但所查得的文献不够全面, 而且往前追溯年代越远, 所查获的文献就越陈旧, 故一般是在没有检索工具或检索工具不齐备的情况下作为查找文献的辅助方法来利用。采用引文追溯法查找文献应重视对综述 (Reviews) 与专著 (Monography) 后所附参考文献的利用。因此这种参考文献的针对性比较强, 数量也比较多

2.4 浏览法

因为各种检索工具加工和报道时会产生时滞问题, 为获得最新的信息, 应直接浏览相关专业期刊及其他出版物上的目次及原始论文。现如今, 随着个人电脑的广泛应用和互联网的飞速发展, 各种网络数据库和电子出版物越来越为广大人民群众所接受。常用的网络数据库有:《中国科学引文数据库》 (CSCD) 、《中文科技期刊数据库》-维普资讯网、《中国期刊全文数据库》 (CJFD) 、《中国学术期刊综合评价数据库》 (CAJCED) 、《中国学术期刊网络出版总库》等等。其中的《中国学术期刊网络出版总库》是中国知识基础设施工程网 (China national knowledge infra structure简称CNKI网址:http://www.cnki.net/) 的一部分, 是由中国学术期刊 (光盘版) 电子杂志社与清华同方光盘股份有限公司合作开发的网上检索系统。CNKI在使用方面非常的便捷, 《中国学术期刊网络出版总库》是目前世界上最大的连续动态更新的中国学术期刊全文数据库, 收录国内7565多种学术期刊, 1915年至今的文献, 内容覆盖自然科学、工程技术、农业、哲学、医学、人文社会科、医药卫生科技等10个领域, 有168个专题数据库。包括药学方面经常检索的文献:《中国药学杂志》、《药学学报》、《中国新药杂志》、《中国中药杂志》、《中药材》、《中国药事》、《中国药房》、《中国药理学与毒理学杂志》等, 全文文献总量2800多万篇, 可以检索中文期刊、学位论文、专利等正式出版的各种学术期刊。CNKI中心网站及数据库交换服务中心每日更新, 各镜像站点通过互联网或卫星传送数据可实现每日更新, 专辑光盘每月更新。题录摘要可免费检索, 通过注册成为会员, 充值后可以检索、下载、阅读文献。CNKI检索的方式也很多, 可以通过输入文献的标题、作者的名字、出版社、关键词、书刊号IS-BN、引文等字段自由组合检索, 非常的方便。由于网上的许多信息资源并非永久保存, 往往稍纵即逝, 网上浏览显得更加重要, 会有未曾预料的结果。

3、药学计算机信息检索

3.1 药学计算机信息检索产生的背景

3.1.1 文献数量急剧增长

在现今信息时代, 信息已经成为社会的一种重要资源, 是社会活动, 科技活动, 乃至日常生活中不可缺的要素。近30年来出现的科技成果, 其数据超过了在此之前人类历史上两千多年的总和。作为科技成果的载体形式, 文献信息的种类和数量爆炸性地增长, 使人应接不暇。

3.1.2 文献发布异常分散

由于学科的高度分化和高度综合, 使各学科间交叉渗透现象日益突出, 分支学科和边缘学科不断发展繁衍。据统计【2】, 一个传统学科应用的技术50%是从别的学科来的, 一个新兴学科应用的技术70%~80%是从外学科来的, 由此造成学科之间在内容上相互交叉和渗透, 同一专业的文献往往分布在许多不同的刊物上。在这种情况下, 如果还是传统的手工方式在浩如烟海的文献资料中查找所需要的情报, 就会像大海捞针一样困难。

3.1.3 文献寿命明显缩短

伴随着科学技术日新月异的发展, 每时每刻都有新的发现、发明、创造和革新。反映在科技文献上就是文献的使用时间在缩短, 旧的文献很快就失去时效而被新的文献所替代。一般认为, 80%~90%的文献的有效周期只有5年。

面对以上现实, 如何提高人们准确而迅速地识别、搜集、处理、吸收信息和有效地利用信息的能力, 已经成为一个十分突出的问题。计算机技术、网络、数据库、数据传输技术、远程通讯技术等的出现和发展为信息的自动存储和管理提供了坚强的物质基础。所以这些外部条件和信息检索本身的发展要求相结合, 导致了计算机信息检索的产生和迅速发展。

3.2 计算机检索的发展过程

从50年代初计算机首次进行情报即时检索试验, 到如今的多元化全面发展, 计算机信息检索经历了以下四个阶段:

3.2.1 脱机检索阶段 (1954~1964)

20世纪50年代初期至中期, 计算机信息检索有很大的局限性, 因此几乎没有实用系统, 有的也只有内部的实验性或半实验性系统, 而且只能脱机检索。1954年美国海军军械试验站研制的情报检索系统是计算机信息检索的最初尝试到了20世纪50年代未和60年代初, 计算机文献处理与信息检索进入了实用化的脱机批处理检索方式阶段。随后, 一些检索刊物出版机构陆续采用计算机处理数量庞大的记录, 同时机读索引 (或文摘) 磁带作为副产品问世。这些机读磁带很快应用于为用户提供定题服务和回溯检索服务。到20世纪60年代未, 市场上流通的数据库已有50~100种。批式检索 (batch searching) 是这一时期计算机信息检索的主要方式。

3.2.2 联机检索阶段 (1965~1972)

人们在60年代初就开始研制试验, 到70年代, 随着几项重大技术取得重要进展, 使得信息检索从脱机批处理阶段进入联机检索阶段。通过通讯线路, 若干个用户可同时直接和主机以"对话"方式进行检索。在这一时期, 比较有代表性的检索系统有:美国洛克希德公司建立的DIALOG系统, 美国国家医学图书馆的MEDLARS系统。由于这一阶段的计算机网络主要是通过电话线路联接, 因而, 联机检索受到地区的限制。

3.2.3 国际联机检索的发展与普及阶段 (1973年至今)

这一时期, 由于第四代计算机的出现, 以及卫星通讯技术和光纤通讯技术的实用化, 出现了TYMNET和TERNET等通信网络, 这给联机发展提供了低价快速的传输线路, 使得计算机信息检索能冲破时间和空间的限制而进入国际联机检索阶段。洛克希德公司的DIALOG系统, 系统发展公司的ORBIT系统相继开始对外服务。联机检索技术的发展普及, 使更多地区的用户能够直接进行联机检索, 大大方便与加速了世界信息资源的交流与利用。

3.2.4 光盘检索系统的出现 (1985年至今)

它是20世纪80年代中期, 随着光盘技术的大量应用而出现的在微机上应用的检索系统。它只需要一台微机, 一个驱动器, 一张CD-ROM盘即可运行。其使用方便, 存贮量大, 不受检索时间, 通信费用, 打印篇数的严格限制而深受读者欢迎。在药学领域有《中国学术期刊》 (光盘版) 的检索管理系统 (简称CA-JR) , 分为医药、卫生、电子技术和信息科学等的9个专辑, 提供期刊检索、专项检索和全文检索三种功能[3]。光盘检索的出现使得计算机信息检索的内容更加丰富, 服务方式也更加多样化。光盘检索与联机检索互相补充又各有缺点。

3.2.5 网络化检索时期 (20世纪90年代初至今)

20世纪90年代是计算机网络时代, Internet和World Wide Web使信息存贮、检索和利用发生了巨大的变化。Internet实现了全球通讯和资源共享。各国信息高速公路的建设, 为信息的传输、检索和利用提供了更好的网络环境。因特网已成为世界上最大的信息资源宝库, 由于网上资源丰富, 更新快捷, 它本身就是一个重要的信息源。在因特网中常用的药学网站有:国家食品药品监督管理局 (http://www.sda.gov.cn/) , 在国家局的网站上还有所有直属单位和地方药监局的链接。因特网中还有各式各样的数字图书馆, 数字图书馆是虚拟的、没有围墙的图书馆, 是基于网络环境下共建共享的可扩建的知识网络系统, 是超大规模的、分布式的、便于使用的、没有时空限制的、可以实现跨库无缝连接与智能检索的知识中心。数字图书馆是人们花费最少的时间和费用就可以检索到自己所需要的信息。该类图书馆与网络数据库一样一般需要收费, 并下载各自不同的软件, 才可以查阅图书。较大型的网络图书馆有:超星数字图书馆、书生之家数字图书馆、方正Apabi数字图书馆和中国医药数字图书馆等【4】。网络信息的查找和检索, 已远远超出了信息检索领域, 在社会各界都广泛应用。

4、药学信息检索中计算机检索与手工信息检索的关系

目前药学信息检索的主要手段是的计算机检索和手工检索。计算机检索借助于计算机设备, 通过人机对话的方式进行检索;而手工检索多以书本式或卡片式检索工具为主, 。

4.1 计算机检索的特点

4.1.1 查找速度快、反馈及时

联机检索系统的主机采有分时技术, 对用户而言, 感觉到是独自使用, 检索中等待时间很短, 系统对用户指令响应以秒计算, 网络检索时, 用户通过浏览器向WEB服务器发送请求, WEB服务器可以在几秒内将数据库传输到用户的浏览器, 用户可随意浏览光盘检索, 快捷方便, 数据更新迅速。

4.1.2 检索途径多样

一般的印刷检索工具只有分类、主题和作者途径。而计算机检索, 在系统设计时, 可以根据用户要求, 制定各种途径。

4.1.3 组配灵活方便

计算机检索采用灵活的逻辑运算, 种类检索词之间可以灵活地组配, 特别适合检索比较复杂的课题。有时检索系统还支词间关系检索及词的片段进行相似性检索。各检索词之间, 以及与其他检索要求之间的各种组配方法, 可随意扩大或缩小检索范围和控制检出文献量。

4.1.4 内容新颖、实时性强

联机检索系统中, 大部分数据库更新周期为数周, 有的更新周期往往只有数十分钟, 甚至更短。而光盘数据库的更新也要大大快于传统印刷物。

4.1.5 使用方便、功能完善

联机系统常用成熟的辅助功能以及联机帮助, 指导用户所需信息iq盘检索系统一般使用菜单驱动方式, 使用便捷网络检索中, 用户通过WEB浏览器, 通过点击链接或输入检索提问式, 就可以利用WEB搜索程序, 快速查找网络信息。

4.1.6 检索结果输出形式多样

计算机检索系统, 不论是联机系统、光盘检索系统或网络检索系统, 检索程序一般都设计了良好的输出功能, 可以实现打印、拷盘等多种保存方式。

4.2 手工检索的特点

尽管计算机检索有方方面面的优越性, 但目前计算机检索还是不能完全替代手工检索。手工检索主要有以下特点:

4.2.1 手工检索方法是计算机检索方法的基础。计算机贮存的文档, 其编制原则起源于手工检索工具刊, 进行手工检索能熟练掌握各项标引规则, 有利于提高计算检索的质量。

4.2.2 手工检索能了解各类检索刊物的收录范围、专业覆盖面、特点和编制要点, 可以提高查全率和查准率。目前计算机的综合检索工具, 并不能查全某些专题的内容。而药学领域中有很多专题, 并非所有专题都有专题数据库, 因此, 手工检索仍不失为较好的检索手段, 专题的检索工具刊可与综合检索工具刊 (或数据库) 相互补充使用, 以免漏检, 影响查全率和查准率。

4.2.3 手工检索的检索时间和检索范围不受限制, 且费用低廉。

5、小结

在药学信息检索实践中, 为了更快更方便地检索到我们所需的信息, 最好的方法是以计算机信息检索为主和手工信息检索为辅, 两种方法结合起来使用, 以充分发挥它们的优点。

摘要:介绍信息检索产生的背景以及信息检索的分类和方法, 分析计算机信息检索在药学应用方面迅速发展的原因, 比较计算机检索和手工检索的关系, 得出药学信息检索最快速、最合理的方法是以计算机检索为主和手工检索为辅, 两种方法结合起来使用。

关键词:计算机,信息检索,药学

参考文献

[1]Ricardo Baeza-Yates, BerthierRibeiro-Neto, 等.《现代信息检索》[M].北京:机械工业出版社出版, 2005.26

[2]周晓兰, 等.《科技信息检索与利用》[M].北京:中国电力出版社出版, 2008.57

[3]穆丽红, 陈晓毅.《药学信息检索与利用》[M].北京:海洋出版社出版, 2008, 70

档案信息计算机的检索 篇3

关键词:高校计算机;档案管理;信息系统;保护;问题

随着时代的进步,高校的档案管理也逐渐朝着信息化、网络化的方向发展起来。高校的档案管理正面临着严峻的挑战,维护档案信息管理系统的安全性已经成为一件迫在眉睫的事情。

一、档案管理系统的完整性保护

在档案管理的工作中, 各类信息之间存在着非常严谨的逻辑依存关系,当这些关系被录入计算机系统之后,就会形成数据库与数据库之间,数据字段与数据字段之间,运行程序和运行程序之间的各种逻辑关系。逻辑关系和数据是计算机数据库的基本组成,关系着整个数据库的安全。这里强调的不仅仅是数据库内的索引,而是档案管理系统中的各种约束关系和非常复杂的数据库设计的关键。

在计算机运行的过程中,最让人不安的情况是出现意外,意外可能导致一个完整的处理过程被中断,导致逻辑矛盾出现,继而破坏信息的真实性。加之操作者对软件的设计和构造的不理解,根本弄不明白是什么样的问题造成了这样的原因,继而导致错误被忽略。事实上计算机出现诸如死机、掉电情况的概率是非常小的,但是这种非常小的概率却并不是可以忽略的,档案管理人员应该充分的了解数据库之间的关系,对可能导致出现完整性错误的程序进行及时的检查和维护。

二、电子资料的复制备份设计

在计算机档案系统运行的过程中,电子数据是极易被破坏的,录入删改、文件覆盖、过期数据的引入、权限设计不合理都可能导致数据的真实性遭到破坏。因此在计算机档案管理系统中需要设计一套备份方案,对档案数据进行存储备份,防止出现意外。

从技术层面出发,有很多种保护方法可以实施,但是保护方法往往伴随着各方面成本的增加,实施起来难度较大。还有一些比较先进的科学技术手段,可能由于高校自身原因的限制,并无法有效的落实。因此,高校在进行计算机档案管理信息系统保护的时候,需要充分考虑自身的情况,并在此基础之上根据档案的重要性对其进行分类,设计出不同级别的备份方案,对各种情况下数据被破坏的威胁进行有效防范。就现阶段的实际情况而言,数据备份技术主要包括如下四类。

(一)数据拷贝

数据拷贝技术主要是指将计算机数据系统的相关文件拷贝进磁盘,磁带、光盘等有效介质中实现资料的备份保存,并对存储有文件的介质进行隔离保护。这种方法在操作上比较方便,在成本上的耗资也不算太大,基本上可以满足高校计算机档案管理系统。

(二)磁盘阵列方式

磁盘故障是破坏计算机档案信息的最主要的问题,磁盘阵列方式是防止磁盘损坏造成永久性损失的最佳方式。磁盘阵列方式可以有效的解决纯属容量问题,并实现信息的有效备份。当信息存入计算机时,磁盘阵列可以同时将信息存入两个磁盘之中,也就保证了从当前时刻开始,每一份资料都存在一个相同的备份。计算机对磁盘阵列进行监控,一旦发现故障,就会立即采取相应的措施对故障进行处理,避免了数据的损害。磁盘阵列方式最大的优点是故障明确,恢复过程简单,数据损失小。

(三)双机热备份方式

在进行特别重要的档案信息管理的时候,仅仅保证数据不受损失是远远不够的,系统服务的不中断也必须满足。高校在进行重要档案信息管理的时候,可以同时选定两台计算机提供服务,使两台计算机实现实时监控,一旦出现故障,立即进行业务的转移。双机热备份方式的优点在于提供了极高的计算机服务器级可靠性,弊端在于投资相对较大。

(四)双机异地热备份方式

双机异地热备份方式是在磁盘阵列和双机热备份方式的基础上形成的一种新型的备份方式。通过计算机网络实现异地设备的远程备份,打破了地域空间的限制。两地的计算机不仅可以进行备份,还可以同时进行其他软件的运行,全面提高了投资的效益,更降低了自然灾害和暴力破坏对信息系统的影响。

三、计算机数据防泄密设计

档案从纸质的实态转换为网络的虚拟态,实现了档案信息与载体的分离,使用者获得的虽然不是档案原件,而是档案的复制品,但这也使档案的安全保密问题成为档案信息管理的一个大问题。高校在落实计算机数据防泄密设计的过程时,需要对安全保密工作进行深入的分析,从技术、管理、工作人员业务素质角度出发,结合档案信息的进口、传输和使用,采取相应有效的技术和措施,落实计算机数据库的安全保密工作。

(一)加强高校内部的管理体制建设

虽然现阶段电子入侵的途径非常之多,黑客的手段也越来越高明,然而造成攻击的最根本原因还是由于现有信息系统上存在漏洞,内部管理人员的失误和管理上的疏忽。如果没有落脚点,黑客是很难完成系统入侵的,正是由于管理的内部人员粗心大意,随意扩散账号密码,不及时清除过期账号,不及时打系统漏洞补丁等才给了黑客可乘之机。缺乏完善的内部管理机制,高校的计算机档案管理信息系统的有效保护很难实现。

(二)关注计算机病毒的变化

21世纪是一个信息化发展的世纪,网络互联网技术日新月异,计算机病毒也在不断的更新,高校的档案工作者应该时刻注意计算机病毒的变化,制定出针对性的策略, 并从管理、监督、保护、 应急措施等多方面进行防范。此外,高校的档案管理者还需要从强化权限管理,完善审计制度的角度出发,尽可能的降低计算机数据泄密问题的发生,及时发现问题,对不良的后果进行及时的补救,将损失降到最低。

四、结束语

想要全面提升高校档案数据管理信息系统的安全水平并不是一朝一夕就能实现的事情,这是一个比较艰难的过程,涉及多方面的人力和物力,除了做到上述的各方面外,还需要在强化高校档案管理部门的安全意识,完善计算机技术安全相关的管理制度方面不断下功夫,相信会对提升高校档案数据管理信息系统的安全水平产生极大的帮助。

参考文献:

[1]徐志敏.计算机档案管理信息系统的安全保护[J].办公室业务,2007(03).

[2]涂昊云.浅谈档案管理信息系统的等级保护[J].浙江档案,2011(02 ).

档案信息计算机的检索 篇4

关键词:色彩特征;图像检索方法;关键技术

中图分类号:TP391.3

近些年来,随着计算机技术及多媒体技术的快速发展以及硬件速度的不断提高,图像信息已经成为计算机信息处理中十分重要的内容之一。照相机、摄像机及扫描仪的使用产生了庞大的图像信息资源,面对如此庞大丰富的图像资源,采用何种检索方法来对寻找有用的图像资源已经成为相关领域的研究热点。对于以往的数据库而言,其使用最多的是关键词检索法,而对于图像而言,此种方法显然不再适用,因此,本文探讨了图像检索方法及其种类,并重点针对使用最为广泛的色彩图像检索法进行了研究,希望能够为此类问题的顺利解决寻找有效的途径。

1 图像检索方法的内涵及分类

图像检索方法,即借助于计算机检索系统,通过输入图像来对有用的图像资源进行检索的一种方法。其主要是通过图像分析软件来对图像进行分析,以其在软件中所呈现的颜色、纹理及形状等特征为依据,对其所具有的显著特征进行随机自动抽取,并将所输入图像存入计算机图像库中,同时将相应的特征量一并存入相连的特征库中,以便在图像检索过程中通过对所给定的图像进行查询,来对图像进行分析和对比,并及时提取出图像的特征向量。经查询后,若数据库中存在同特征库中特征向量相吻合的图像时,即可经搜索提取出有用的检索图。

根据图像特征的不同,可将图像检索分为如下三种方法:一是以色彩特征为基础的图像检索法,二是以纹理特征为基础的图像检索法,三是以形状特征为基础的图像检索法。由于从图像中将边界及区域提取出来一直是图像处理领域中相当困难的问题,因此,这也导致基于形状特征的图像检索法成为三种中最困难的一种方法。色彩对于图像而言具有十分重要的意义,且提取色彩特征较为快速和方便,且不会因图像几何形状的变换而发生改变,因此,是图像检索中最常用的特征之一。图像检索过程中,对人们视觉冲击最为直接的无疑是色彩,因此,色彩图像检索法所具有的专一性及其稳定性满足了各层次人们视觉方面的需求,也拥有更加良好的检索效果。

2 色彩图像检索方法及特点

在以色彩特征为基础的检索算法中,常采用色彩直方图来对图像的颜色特征进行表示。直方图可以对图像中各种颜色的频率分布进行较好的反应,横轴通常表示的是颜色的等级,而纵轴主要表示相同颜色等级上该色彩的像素在整个图像中的比例情况。通常而言,直方图可对图像进行最大匹配度的检索。有关色彩索引方法主要包括两类,即以全局为基础的色彩索引以及以局部为基础的色彩索引。全局色彩索引即根据全局色彩分布情况来对图像进行索引,通过对各种颜色的像素进行计算,将具有相同色彩内容及像素的图像检索出来。其中,较为有用的工具为灰度直方图,其可通过特征指标来对图像进行描述。借助于色彩直方图进行检索的方法相当多,例如累加直方图法及比例直方图法等等。由于色彩直方图无法为图像中像素的位置提供线索,因此,为尽量避免信息的丢失,提出了以局部为基礎的色彩检索方法,其索引对象为局部相似的色彩区域,考虑到色彩分类及一些初级特征,采用圆度、形状面积及离心率等来对图像形状特征矢量进行描述。

较传统检索方法而言,色彩图像检索方法具有如下特点:1)视觉属性,图像首先带给人的是一种视觉上的冲击,通过直观的视觉体验对某种概念进行了传达。色彩是人们普遍理解的一种特征,其主要是以图像的色彩特征作为图像的索引,并根据相似度进行相应的匹配和检索。2)形状特征,在运用图像的色彩进行检索时,形状也常被同时纳入考虑中,二者的结合常常能够达到更为精确的检索效果。在对图像的形状进行匹配时,最为经典的方法即采用Hough进行变换,此外,Chamfer比较法能够根据线性时间的复杂程度对两个图像形状快集合进行比较,在对形状进行描述时,可采用如下几种方法:边界特征法、几何参数法、有限元方法、形状不变矩法等。

3 以计算机为基础的色彩图像检索方法及其关键技术分析

对于色彩图像检索方法而言,有关研究人员提出了多种方案,例如色彩直方图、颜色矩、聚类、主色调、颜色集等检索算法,其中,色彩直方图是实际应用过程中使用最多的检索方法之一。具体而言,色彩直方图法是通过对色彩空间进行确定来对各种色彩的像素个数进行计算,并进行直方图的构造,并将直方图作为图像的色彩特征进行检索。其中,色彩特征的相似性主要是通过直方图构造间的距离来度量的,当被检索图像的色彩满足检索结果时,其直方图间的距离将小于给定阈值。以色彩空间为基础的固定划分方法主要是先将图像进行适当分块的分割,而后通过分块的色彩直方图及色彩矩来为各分块进行局部颜色特征的提取,因而实现了图像检索准确性的大幅度提高。目前,以颜色特征为基础的图像检索多集中于如下三个关键技术的研究方面:

3.1 色彩空间的研究方面

对于色彩图像检索而言,其必须在一个特定的色彩空间中进行,但实际应用过程中,常用的色彩空间并非想象中那么多样化与理想化,因此,有必要对色彩空间方面进行进一步研究。目前,图像检索过程中常用的色彩空间有HSV、RGB等。

3.2 色彩特征的提取方面

1.色彩直方图及其改进方面的研究,色彩直方图虽具有很多优点,并得到了较为广泛的应用,但是由于此法易丢失色彩的空间分布信息,对于图像色彩量化处理容易出现误检的状况,图像的维数偏高等等,因此,仍需进行进一步的改进,例如可采用模糊集理论的α-级关系来对色彩直方图的匹配色彩峰进行定义,通过对所有色彩峰的高度进行综合匹配,得出色彩直方图的一系列相关值,从而实现图像检索效率的有效提高。

2.有关颜色聚合向量方面的研究,为了进一步解决色彩直方图及色彩矩等难以进行图像色彩空间分布信息的描述等缺点,有关色彩聚合向量法的研究越来越多,其主要是将色彩直方图各区间内的像素分为两大部分,当此区间内某些像素占据的连续区域面积超过了给定阈值时,即将此区域像素作为聚合像素。

3.3 图像数据库技术方面

由于色彩图像检索需要以色彩特征作为索引,需选择一幅或多幅代表性图像来进行图像的构造,因此,为图像数据库带来了诸多问题,可利用面向对象数据库所支持的多媒体结构及类型数据来对此类问题进行解决。

4 结语

总而言之,以计算机为基础的色彩图像检索方法为用户提供了一种有效的网络图像信息资源搜索手段,但是,由于色彩图像检索技术目前仍存在着不少亟待发掘的内容,因此,必须以计算机网络及信息技术为基础,不断推动色彩图像检索技术的进一步发展和完善。

参考文献:

[1]刘伟成,孙吉红.基于内容的图像信息检索综述[J].情报科学,2011(4):438-444.

[2]方俊,郭雷,汪子强.一种改进的基于颜色空间特征的图像检索方法[J].计算机工程与应用,2009(25):68-70,87.

[3]陈秀新,贾克斌.三维量化颜色直方图在彩色图像检索中的应用[J].计算机应用与软件,2012,29(9):31-32,40.

[4]刘付民,张治斌.基于色彩和边缘特征的图像检索方法[J].计算机应用,2012,32(5):1280-1282,1292.

网上经济信息资源检索方略 篇5

[关键词] 网络环境 经济信息资源 利用问题

随着计算机技术、网络技术的迅猛发展和经济发展的全球化, 网上经济信息的数量和种类也以惊人的速度增长,给人们工作、学习、生活提供了极大的方便。但由于网上经济信息的无序化与分散性,网络发布的信息没有统一的管理和规范,现有的网络检索工具智能化程度较低, 导致了信息检索困难,大大影响了网上经济信息资源的开发与利用。本文结合作者在实际查找网络经济信息中遇到的问题进行论述, 并提出相应的解决对策。

一、网上经济信息资源利用中存在的问题

1.网上海量和无序的经济信息资源易导致利用者“迷航”

由于网上信息发布十分自由, 任何一个单位、组织和个人均可在网上发布信息, 而且信息的复制、生产也十分简单,使网上信息出现“信息爆炸”问题。网上经济信息资源包括与工农业生产、交通运输、财经贸易、市场行情等一系列与经济活动有关的信息,因而网上经济信息浩瀚庞杂, 占网上信息的95%以上。另一方面网上信息又缺乏有效的组织和控制。目前网上最有效的检索工具就是搜索引擎, 但由于搜索引擎存在着信息标引类型有限、标引内容重复、针对性比较差等问题,其对网络信息的组织效果十分有限, 即使最好的搜索引擎( 如Google) 也不能涵盖30%的互联网网页。人们在检索过程中由于检索策略不当等原因,很容易在如此庞大的信息库中迷失方向。

2.网上高额的经济信息资源检索费用令利用者“望而却步”

利用网络查找经济信息时,除缴纳计时上网费用外,获取经济信息的使用权也要缴费。即用户要想在网上浏览全部或最有价值的信息, 一般也要通过交付一定费用才能获得信息的使用权。根据《2004年中国互联网信息资源数量报告》, 我国目前对在线数据库进行收费的网站比例占12.3%,其中商业网站在线数据库的收费比例最高,为30%左右。如金融股票数据库、科技信息数据库、企业名录数据库等。一些大型的、稍有名气的经济信息网络数据库不仅收费,而且费用之昂贵不是普通的网民甚至中小企事业机构敢问津的。

3.经济专业搜索引擎匮乏

除利用数据库外,通常人们主要利用新浪、网易、雅虎等大型综合性搜索引擎查找经济信息。由于每个学科都有自己的专业术语, 同一词在不同学科有不同的含义, 因此会导致综合搜索引擎在查找经济信息时查准率低, 检索者的需求与查到的检索结果相差甚大的问题。而目前我国具有一定规模的经济专题搜索引擎匮乏, 远远不能满足人们查找经济信息的需要。同时,由于管理体制不适应, 部门之间、地方之间相互分割, 自成体系, 信息资源存在着比较严重的重复分散、浪费和效率低下的现象,使大量的经济信息资源无法得到充分利用。

4.检索工具检索功能不完善,智能化程度低

除一些大型综合性的搜索引擎如Yahoo、新浪网等和以数据库为主的中国知网、维普资讯网等比较注重检索系统功能建设,提供多个检索点, 性能较为完善外, 大部分检索经济信息的网站都不太注重其检索系统的检索功能建设, 检索性能大多不够齐全。如利用关键词检索的网络检索工具, 大多只配置一个简单的检索框, 或只提供最基本的布尔逻辑式, 缺乏复杂高级的精确检索方式, 不易于处理多词检索和限定词检索, 无法进行匹配查询, 查准率不高。此外,目前经济信息检索的网络检索工具智能检索功能不强, 只能检索到含有指定主题词、关键词的经济信息, 而检索不出与主题密切相关, 但并不包含这些主题词的经济信息, 缺乏知识理解与处理能力。

二、网上经济信息资源检索策略

面对网上经济信息资源利用中存在的问题, 经济信息检索者应充分利用网络为我们提供的便捷, 积极想办法找对策来解决自己在查找经济信息资源过程中遇到的问题。

1.制定正确的检索策略

面对海量无序的网上经济信息, 制定正确的检索策略是快速、准确获取所需信息的关键。在具体的检索实践中,采纳的操作策略基本相同,通常是由以下几个步骤组成。

(1)对查找的内容进行分析

首先明确检索的目的, 信息检索的目的有科研立题、科研成果鉴定、为领导决策提供信息参考等。目的不同,检索的深度与广度各不相同。其次是明确检索的主题内容, 即具体需要哪些内容的经济信息, 避免检出大量无关信息。再次是要明确学科范围, 看自己要查找的经济信息属于经济的哪个学科领域, 是会计、劳动经济、物质经济还是工业经济等。同时还要明确所需经济信息的语种、年代范围及文献类型等。

(2)选择检索工具

第一,检索比较专业的学术性较强的文献信息。如正式发表的期刊、论文、会议记录等, 应选择网上数据库检索系统, 如中外文期刊全文数据库、学位论文数据库和会议论文数据库等,以保证检索结果的全面性和权威性。

第二,检索时效性较强的信息。如新闻报道, 可选择网上综合或专业性搜索引擎。但对于学术性强的课题, 用搜索引擎检索效果并不理想。

第三,查找经济动态、产品信息、企业机构名录等内容, 除选择综合性搜索引擎或各经济信息网站的检索通道外, 还可选择一些经济类专业数据库, 如万方数据资源系统的《中国企业、公司及产品数据库》收录了96个行业的近20万家企业的详尽信息, 全记录包含30多个字段, 对企业进行了全方位的立体描述。

2.确定检索词

确定检索词要考虑满足以下两个要求。

(1)满足检索课题要求

一个检索课题往往涉及多个概念, 所以要对课题的主题内容进行分析, 选择恰当的主题词或关键词,同时同义词、相关词、近义词要尽量选全。

(2)检索词的输入要求

需要对数据库提供的检索字段有所了解, 这些字段是确定检索词的基础。一般有主题词、关键词、作者、刊名、机构等多种检索字段。若采用主题词字段检索, 所用的检索词应是规范化词语, 最好从主题词表中选取; 若采用关键词字段, 则对检索词没有什么要求,同一词选全即可。检索时要根据选择的字段,输入相应的检索词进行检索。

3.编制检索提问式

即编制检索提问的逻辑表达式。该过程是合理处理检索词之间关系的重要步骤之一, 常用的逻辑表达式通常是用布尔逻辑运算符的逻辑或(OR)、逻辑与(AND)、逻辑非(NOT)来表达检索词之间的关系, 这样可以增强检索的专指性, 扩大或缩小信息检索范围, 从而提高查全率或查准率。

4.选择和处理检索结果

检索结果的选择与处理是指选取、整理、加工、编辑和打印相关的文献资料。检出信息提供给信息用户, 接受用户反馈, 甚至调整检索策略, 再次检索直到用户满意。提高查全率的技巧有:利用通用搜索引擎或经济专业搜索引擎进行检索,也可降低检索词的专指度、从词表中选出上位词,增加检索途径等方式提高查全率。提高查准率的技巧有:提高检索词的专指度,换用下位词或专指度较强的自由词;用“逻辑与”进一步限定主题概念的相关检索项; 利用逻辑非剔除, 利用文献外部特征限制, 使用规范词, 少用自由词;恰当运用组配,限定和二次检索等方法,使查全率和查准率最佳化, 全面提高检索效率。

参考文献:

[1]黄颖唐承秀:网络环境下经济信息资源利用中存在的问题与对策.图书馆论坛,2006(4)

[2]詹仁锋:对互联网经济信息资源利用问题的思考.现代图书情报技术,2002(1)

[3]陈红梅牟平:网上经济信息资源分布及检索策略研究.情报科学,2004(5)

国内外信息检索策略比较研究 篇6

[关键词]信息检索 检索策略 比较 综述

决定信息检索效果(information retrieval effectiveness)的因素有系统因素和人为因素,系统因素是与检索系统的收录、设计和技术等相关的因素,是用户无法控制的;人为因素是与用户的个人素质、知识结构、检索经验与检索策略等相关的因素,是可以人为控制的。在人为因素中,信息检索策略(information-seeking strategies,ISSs)又是影响信息检索效果的关键因素,用户能否构造一个最佳的检索策略,将直接影响到信息检索的查全率与查准率[1]。从国内外研究情况来看,信息检索策略是一个内涵十分丰富的概念,它可以体现为与信息检索相关的朝向检索目标的任何计划、方案、措施、动机、方法与技巧。国内外对信息检索策略的认识存在共通点,同时,在研究内容、研究方法以及研究层次上又有着较大的差别。

1 信息检索策略的国内研究概况

1.1 理论研究

国内关于信息检索策略的研究主要集中在理论层次,认为检索策略是为了实现检索目标而制定的计划和方案,或者是所采取的措施和方法。相应的检索策略的内容主要包括需求分析、检索工具选择、检索词确定、检索途径确定以及检索式构造等方面,并以这一检索策略的内容为依据,探讨如何制定科学的检索策略。金秋颖、华薇娜、乔好勤、张岚等[2-5]认为检索策略是为了实现检索目标而制定的计划和方案,或者是所做的安排和部署,包括选择检索系统和数据库、选择检索途径、编制检索表达式等。王征清、成全[6]认为检索策略是在充分分析课题内容实质的基础上,选择检索工具与检索途径、发掘检索点、确定检索词及其相互间的逻辑关系,直到给出检索顺序的最佳实施方案等一系列的科学措施。陈光祚[1]认为检索策略是在分析情报提问实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与科学的查找步骤以及检索过程中应采用的措施和方法。吴六爱、李霞等[7]认为检索策略是在分析检索提问的基础上,确定检索的数据库、检索的用词,并明确检索词之间的逻辑关系和查找步骤的科学安排。吴江文[8]提出了一种结构检索的检索策略,即任務、资源、词、方法和评估5个基本连续的阶段以及7个基本方针——确定任务、找出资源位置、选择检索词、挑选分类法、执行检索、评价结构与重新检索。这些计划或方案的观点是国内关于信息检索策略的普遍观点,并且大都围绕信息需求、检索工具、检索词、检索途径、检索式几个方面探讨如何制定科学的信息检索策略。所不同的是,李莹[9]提出了主题限定检索、分类限定检索与主题分类限定检索三种信息检索策略。从本质上讲,这三种方法是信息组织方法在检索策略中的具体体现。

1.2 实验与实证研究

国内亦有少量关于信息检索策略实验或实证方面的研究,但不够系统深入。有实验研究学生认知方式对数据库检索策略学习的影响,所学习的检索策略由检索方法与关键词放置方法组成[10]。但所涉及的检索策略只是数据库检索方法的某些方面,且重点是研究学生的认知方式对于学习的影响,关于检索策略的研究不够系统深入。亦有关于检索策略实验调查方面的研究,主要是通过发放调查表的方法来研究网络环境下人们对不同类型的问题选择的第一检索策略,所涉及的检索策略有输入地址、主题指南、搜索引擎、输入检索词几种形式[11-12]。这类研究实质上是调查统计方面的研究,并非真正意义上的实验研究。实证研究主要以某些课题或其部分内容为实例,从检索工具选择、检索词提炼、检索式构造几个方面进行实例化分析,如华薇娜[3]基于网络数据库信息检索各环节的实例分析,探讨了网络信息检索策略的设计与实施,黄瑞敏[13]基于科技查新质量评价因素分析,对网络信息检索策略优化机制进行了实例研究。这种实例化的研究基本上没有脱离信息检索普遍观点的内容,即是从检索工具、检索词、检索式等方面举例说明检索策略的设计和优化。

2 信息检索策略的国外研究概况

国外关于信息检索策略的研究则更为全面和深入,在注重理论研究的同时,较多地进行实验和经验性的研究。表达信息检索策略概念的语词主要有search moves、search tactics、search strategies与information-seeking strategies,相应的关于信息检索策略的研究可以分为moves、tactics与ISSs几类。

2.1 Moves

Fidel[14]研究了用户选择检索词的方法,特别详细地探讨了受控词与自由词的选择使用情况,并提出了信息检索策略的moves概念。moves是用户修正检索策略的一系列行为动作,分为操作性moves(operational moves)与概念性moves(conceptual moves)。操作型moves指不改变检索提问原意的行为动作,如使用同意词与词的不同拼写形式、增加数据库等。概念型moves是指改变检索提问原意的行为动作,如使用上位词与下位词。所不同的是,Marchionini[15]将moves定义为使用键盘所显示的概念性行为动作(conceptual act)。 Shiri与Revie[16]则提出了认知movies(cognitive moves)与物理movies(physical moves)。认知movies是用户对词或文献进行概念分析时所产生的行为,物理movies是使用系统时所产生的行为动作。

2.2 Tactics

Bates[17]认为信息检索策略是朝向检索目标获取所期望信息的任何一种步骤,提出了4种类型的检索策略,并进一步设计了29种具体的检索策略。4类检索策略分别是监控策略(monitoring tactics)、文档结构策略(file structure tactics)、检索式策略(search formulation tactics)与检索词策略(term tactics)。其中,监控策略指的是对信息的追踪策略,文档结构指信息的组织结构。Harter与Roger-Peters[18]针对网络信息检索,把101种具体的信息检索策略分为哲学态度与方法、描述问题的语言、信息记录与文档的结构、概念的形成与修改、检全与检准以及成本效率6种策略。Shute与Smith[19]则提出了13种基于知识的检索策略,并根据对主题范围的影响不同分成三大类——宽主题范围、窄主题范围以及变化的主题范围策略。

2.3 ISSs

Marchionini[20]将信息检索策略分为分析型策略(analytical strategies)与浏览型策略(browsing strategies)。分析型策略是面向目标的系统的策略,而浏览型策略是非正式的交互性策略。Belkin、Cool与Koennman等[21]将信息检索策略分为检索词策略(term strategies)、数据库策略(database strategies)、交互策略(interaction strategies)和搜索策略(search strategies)。Pejtersen[22]则提出了三个不同层次的信息检索策略——分析检索型(analytical search)、类比检索型(search by analogy)与浏览型(browsing)策略。Chen与Dhar[23]根据用户的认知过程提出了5种信息检索策略:已知款目的实例化策略(known-item-instantiation strategy)、检索选项启发式策略(search-option-heuristics strategy)、词表浏览策略(thesaurus-browsing strategy)、交互浏览型策略(screen-browsing strategy)與试错策略(trial-and-error strategy)。

Belkin、Marchetti与Cool[24]则提出了描述信息检索行为的信息检索策略的多面分类表,将信息检索策略分为方法(method of seeking)、目标(goal of seeking)、模式(mode of seeking)与资源(resource interacted with)4个方面。Cool与Belkin[25]对这种信息检索策略的模式做了扩展,提出了信息交互的5个方面:交流行为(communication behaviors)、信息行为(information behaviors)、交互对象(objects interacted)、交互的一般方面(common dimensions of interaction)和交互标准(interaction criteria)。Yuan[26]以此为基础,探讨了浏览(scanning)与搜索(searching)两种检索策略所应采用的系统技术与设计。

Xie[27-28]通过研究40个图书馆馆员用户的应用实例,提出了方法与资源作为信息检索策略的两个方面。方法是用户在检索过程中所使用的浏览、检索、追踪、选择、比较、获取、咨询等各种技术,资源包括信息、信息对象以及人。不同的方法与资源交织在一起构成了不同的信息检索策略,相应的信息检索策略的改变分为方法改变、资源改变以及方法与资源同时改变三种情况。在后来提出的信息检索模型中,信息检索策略由交互意图(interactive intentions)和搜索策略(retrieval tactics)两部分构成[29]。交互意图是为了实现当前目标或者搜索任务而必须完成的子目标(subgoals),搜索策略由方法和具有属性的信息实体(entities with attributes)组成。

从moves到tactics再到ISSs,信息检索策略研究是一个不断深化发展的过程。moves体现为一些较为零散的信息检索行为,而tactics已经可以对信息检索策略进行系统的分类,ISSs则能够对信息检索策略进行多面分类。总的来说,在国外关于信息检索策略的研究中,moves类与tactics类注重用户的决定与活动,更倾向于理论层面的研究,而ISSs类则注重用户的动机与方法,更倾向于经验层面的研究[30]。

3 国内外研究的比较分析

从国内外研究情况来看,信息检索策略的内容十分丰富,它包括朝向检索目标且与信息检索相关的任何计划、方案、措施、动机、方法与技巧。但关于信息检索策略的研究,国内外存在一些差异,主要体现在以下几个方面。

3.1 研究内容

国内对于信息检索策略内涵的认识主要集中在“计划和方案”这一普遍观点上,认为信息检索策略是为实现检索目标所制定的计划和方案,研究内容主要集中在主题分析、检索工具、检索词、检索式等方面,与用户信息检索行为相关的动机、方法的研究则较为少见;而国外关于信息检索策略内涵的认识则更为丰富,它可以包括为实现检索目标所采用的任何计划和方案以及措施、方法与技巧,特别是与用户信息检索行为相关的动机、决定、方法等也是信息检索策略研究的重要内容。

3.2 研究方法

国内关于信息检索策略的研究大多处于理论探讨层面,主要从检索工具、检索词、检索式等方面讨论如何制定科学的检索策略,仅有少量实验或实证研究;而国外在兼顾理论研究的同时,更侧重于用户行为的经验研究,许多研究都是以用户参与的实验为基础的,从用户信息检索行为的角度来解读信息检索策略。

3.3 研究层次

国内关于信息检索策略的研究大都处于简单的理论探讨层次,有待进行系统深入的研究;国外研究则较为全面和深入:表现在理论研究层面,问题论述得较为系统,能够对检索策略进行科学分类并提出多种具体详尽的检索策略;表现在实验研究层面,能够提供具体明确的实验设计和方法,对用户信息检索行为有较深刻的认识,研究较为深入和细化。

4. 启示和建议

虽然国内外对信息检索策略的理解不尽相同,研究的侧重点也不同,但信息检索策略的内容主要体现在资源、检索词、检索式以及用户所采用的方法、技巧等方面。它可以表现为宏观的系统的信息检索计划和方案,也可以表现为微观的零散的检索方法和技巧。基于此,笔者认为信息检索策略是为了实现检索目标而制定的关于信息检索的计划和方案以及在信息检索过程中所采取的措施、方法和技巧。

值得注意的是,无论是国内还是国外的研究,资源、检索词与检索式都是信息检索策略的重要内容,国内的研究可以从这几个方面结合实际进行更为深入的探讨;另一方面,实验或实证研究不失为研究信息检索策略的一个较好的方法,从用户信息检索行为的角度来解读信息检索策略更具有现实意义,这也是国内信息检索策略研究有待改进和加强的地方。

参考文献:

[1] 陈光祚. 因特网信息资源深层开发与利用研究[M]. 武汉:武汉大学出版社, 2002:37-39.

[2] 金秋颖,韩颖,王园. 数字信息检索技术[M]. 北京:石油工业出版社,2006:18-20

[3] 华薇娜. 网络信息检索策略的设计与实施的探讨——基于网络数据库信息检索各环节的实例分析[J]. 图书馆论坛, 2008,28(6): 111-114,178.

[4] 乔好勤,冯建福,张材鸿. 文献信息检索与利用[M]. 武汉:华中科技大学出版社, 2008:25-30.

[5] 张岚,张柏秋,于非,等.探讨科技查新中检索策略式的制定[J].现代情报, 2008(10):151-152,157.

[6] 王征清,成全. 信息检索策略研究[J]. 情报探索, 2007(4): 61-64.

[7] 吴六爱, 李霞, 张秀红. 计算机信息检索教程[M]. 兰州:甘肃人民出版社, 2006:51-54.

[8] 吴江文. 一种成功的检索策略——结构检索[J]. 情报科学,2002,20(1):90-92.

[9] 李莹. 查新工作中检索策略的制订[J]. 大学图书馆学报, 1995(4): 38,54.

[10] 馮颖,甘利人,乔德义. 学生认知方式影响数据库检索策略学习的实验研究[J]. 图书情报工作,2011,55(8):34-39.

[11] 黄丽霞. WWW环境下信息检索策略实验调查研究[J]. 中国图书馆学报,2003,29(3):53-55.

[12] 白莉. WWW环境下信息第一检索策略的实验调查研究[J]. 情报科学,2005,23(11):1704-1707.

[13] 黄瑞敏. 网络信息检索策略优化机制实证研究——基于查新质量评价因素分析[J]. 图书馆论坛,2010,30(1):65-67.

[14] Fidel R. Searchers’ selection of search keys: I. The selection routine. II. Controlled vocabulary or free-text searching. III. Searching styles[J]. Journal of the American Society for Information Science, 1991(42):490-527.

[15] Marchionini G, Meadow C, Dwiggins S, et al. A study of user interaction with information retrieval interfaces: Progress report[J]. The Canadian Journal of Information Science, 1991,16(4):42–59.

[16] Shiri A A, Revie C. The effects of topic complexity and familiarity on cognitive and physical moves in a thesaurus-enhanced search environment[J]. Journal of Information Science, 2003,29(6): 517-526.

[17] Bates M J. Information search tactics[J]. Journals of the American Society for Information Science, 1979, 30(4):205-214.

[18] Harter S P, Peters R A. Heuristics for online information retrieval: A typology and preliminary listing[J]. Online Review, 1985,9(5):407-424.

[19] Shute S J, Smith P J. Knowledge-based search tactics[J]. Information Processing & Management, 1993, 29(1):29-45.

[20] Marchionini G. Information seeking in electronic environments[M]. Cambridge: Cambridge University Press,1995:76-121.

[21] Belkin N J, Cool C, Koennman J, et al. Using relevance feedback and ranking in interactive searching[C]//Harman D K. Proceedings of the Fourth Text Retrieval Conference. Washington: Department of Commerce, National Institute of Standards and Technology, 1996: 181–209.

[22] Pejtersen A M. A library system for information retrieval based on a cognitive task analysis and supported by an Icon-Interface[J]. ACM SIGIR Forum, 1989,23(SI):40-47.

[23] Chen H, Dhar V. Cognitive processes as a basis for intelligent retrieval system design[J]. Information Processing &Management, 1991,27(5):405–432.

[24] Belkin N J, Marchetti P G, Cool C. BRAQUE: Design of an interface to support user interaction in information retrieval[J]. Information Processing & Management, 1993, 29(3):325–344.

[25] Cool C, Belkin N J. A classi?cation of interactions with information[C]// Bruce H, Fidel R, Ingwersen P, et al. Emerging Frameworks and Methods. Proceedings of the Fourth International Conference on Conceptions of Library and Information Science. Santa Barbara: Libraries Unlimited, 2002: 1–15.

[26] Yuan Xiaojun, Belkin N J. Investigating information retrieval support techniques for different information-seeking strategies[J]. Journal of the American Society for Information Science and Technology, 2010,61(8):1543-1563.

[27] Xie H. Shifts of interactive intentions and information-seeking strategies in interactive information retrieval[J]. Journal of the American Society for Information Science, 2000,51(9):841-857.

[28] Xie H. Patterns between interactive intentions and information-seeking strategies[J]. Information Processing & Management, 2002,38(1):55-77.

[29] Xie H. Shifts in information-seeking strategies in information retrieval in the digital age: A planned-situational model[J/OL]. [2012-10-13].http://informationr.net/ir/12-4/colis/colis22.html.

[30] Yuan Xiaojun. Supporting multiple information-seeking strategies in a single system framework[D]. New Brunswick: Rutgers University, 2007.

[作者簡介] 张 进,男,1981年生,馆员,信息分析师,硕士,发表论文3篇,参编著作2部。

吴贤奇,男,1974年生,副研究馆员,硕士,发表论文11篇,主编教材2部。

档案信息计算机的检索 篇7

关键词:情报检索语言;网络信息资源;信息语言组织

中图分类号:G354

当前,网络信息资源并没有一个绝对权威性的定义,但以网络为载体的信息,不可否认有着非常大的膨胀与拓展空间,并逐渐形成了一个非常强大的全球性信息库,对很多人的生活与工作方式产生了很大影响,在信息处理过程中,其方式与手段也在日益产生改变。而信息组织语言与网络信息资源之间的关系很难进行简单的界定,因此,对情报检索语言与网络信息资源组织的关系进行研究是非常有必要的。

1 情报检索语言对网络信息的作用

网络信息资源从字面角度看,可以将其理解成为一种以网络为基础的、多种大量信息资源的集合体。但是,网络信息资源既然是一种拥有强大信息资源的分布式空间,其在基本结构上也一定会出现一种对信息无序因素进行有序化处理的现象。而无序因素产生的原因非常多,最重要的原因在于:因为国家与地区之间所产生的元素存在一定的差异,服务器便会根据这样的差异进行相关调整,加之网络信息的特殊性,其在产生、发布、传播、使用的过程中随意性非常大,而世界范围内尚没有一种统一的规范或组织对其进行管理,从而导致网络信息资源呈现出凌乱松散的互联状态。

针对这种情况,急需一系列有效手段对其进行组织与整合,而抛开程序性语言不谈,情报检索语言也是语言组织系统中非常重要的组成部分。网络信息传递拥有很强的及时性,这使得网络条件下信息的含义表达在对情报检索语言进行组织的过程中,能够在检索层次以及词汇标引等方面进行有效展开,而这一过程一定要运用与之对应的自动化信息组织方式[1]。其原因在于没有进行结构改造或专业规范化程度相对较高等情报检索语言并不能真正实现与网络信息形态的完美融合。但是,其不单单具备传统信息语言处理的相关功能,还符合未来的发展需求,所以,其还是一种发展潜力非常大的信息处理语言。

2 情报语言与网络信息的原始形态

在网络信息中,文件系统领域内所涉及到的信息大多是表达意义相对好理解的“线形逻辑结构”,如果运用非结构化的格式形态对其所表达出来的信息进行处理,便很难真正做到对结构中相对复杂知识单元的有效处理。所以,情报语言便成为文件系统在显示程序、视频、图形等信息过程中应用性最强的语言反映,而在信息检索的层面中,对情报语言并没有真正展开其多元化的系统层次。

为了实现对已知知识单元的系统揭示,非结构化信息在进行处理的过程中需要形成一种系统化的数据库技术,而这种技术运用的主要信息组织方式为自由文本。在情报语言的组织形式系统中,自然语言是其最为主要的关键词,以信息内容的基本形式为依托,通过自然语言进行信息检索点的设置,以完成在指定范围内实现“自然”与“任意”两方面的检索目的[2]。与传统意义上的文献检索有所区别,这种通过任意文件进行储存的方法可以运用自然语言进行检索,以非文献实体为依托,对未进行标引的文献进行一次获取。

3 情报语言与网络二次信息的关系

网络二次信息资源语言组织所形成的目录绝大部分都是以目录指南的方式对信息进行分类检索的。在等级式目录的构成结构中,其主题指南主要采用的组织方式为人工语言,以实现对信息的筛选与加工,但需要按照相应的逻辑层次进行组织,以实现知识树的构建,所以,该系统具有比较明显的序化特征,在应用的过程中,也比较符合人类的思维习惯[3]。但如果单纯的在这个范围之内进行语言组织,那么主题指南也会因为信息发展的日渐快速而难以穷尽。而对索引软件的使用则可以对信息完成自动标引,在建库过程中也相对较快,在查全率方面的提升较快,但由于其反馈信息的多样性与复杂性,在查准率方面并不是非常理想。在网络二次信息资源的检索过程中,情报检索语言的应用价值非常高,其不仅仅具备对目录指南的分类浏览功能,还在关键词检索方面发挥了重要作用,当前已经成为一种普遍应用的网络信息检索工具。

4 情报语言与网络信息需求的关系

网络信息的多样性、复杂性以及大量性等特征,决定了网络资源中不可避免的会存在一些“信息泡沫”,而在当前的技术环境下,人们很难将其完全消除,但如果运用信息价值评价的相关标准对信息进行科学的衡量,能够在一定程度上使网络信息中的“泡沫”成分受到限制[4]。不过信息价值的评价标准会因个体的不同存在差异,当前相对有效的方法是以检索需求为标准,将网络用户划分成几个不同的类型,每一种类型中用户所制定的信息价值评价的标准要大体相同。而检索工具也同样不可或缺,在对情报语言进行应用的过程中,也需要将其按照类别进行科学划分。事实上,没有一种网络信息检索工具能够将网络中的全部信息分毫不差的全部囊括其中,这种设想不仅不现实,也完全没有必要,同样的道理,也没有一种情报检索语言能够完全彻底的应用到所有信息检索中。

5 网络情报语言与传统检索的比较

在网络信息资源中,无序因素占有很大比例,在一定程度上导致了网络信息资源的紊乱,但网络的便捷性与广阔性却不可否认[5]。不过,虽然网络信息可以在很大程度上使文献资料的信息载体得到有效延伸,然而网络这种信息状态与传统图书馆信息相比,却远没有那么稳定。因此,网络虚拟图书馆走进了人们的视野,这种图书馆拥有特定的检索功能,其所拥有的信息资源虽然相对较广,但也不可能完全囊括全部的网络信息资源。所以,在网络信息的环境下,传统的理念产生出了一种新型结构,使得情报检索语言的优势通过自然语言的成分逐渐凸显出来,可以完成以用户需求为基础的网络信息组织。

6 结束语

网络信息资源中的语言组织需要建立在满足用户的基础之上,而情报检索语言这种原本并非网络信息的语言也在随着技术与理念的进步而得到发展,在网络信息检索领域拥有非常大的进步空间。

参考文献:

[1]贺晓利,郝艳红,白葆红.中国图书情报学核心期刊的发展态势研究——基于核心期刊的多指标比较分析[J].农业图书情报学刊,2013(25):224-225.

[2]刘亚辉,周海炜,屈维意.知识共享型战略联盟竞争情报工作模式研究——基于A设计院的分析[J].情报杂志,2013(19):105-106.

[3]周汝英,傅荣贤.情报语言机读化及其语言学难题[J].温州师范学院学报(哲学社会科学版),2014(15):129-130.

[4]涂佳琪.国内三大中文搜索引擎检索性能评价的实证研究[J].中山大学研究生学刊(社会科学版),2013(20):206-207.

[5]李兰,马恒通.网络信息资源研究的新创获——评《网络信息资源评价指标体系的建立和测定》[J].图书馆,2011(25):206-207.

作者简介:胡必楠(1983.09-),女,绍兴人,助理工程师,研究方向:计算机应用。

上一篇:供水安全评价下一篇:成品卷烟烟丝