数字环境下通用概念获取方法

2024-07-25

数字环境下通用概念获取方法(通用2篇)

数字环境下通用概念获取方法 篇1

笔者试验了三种获取通用概念的方法,一是继承传统知识组织体系通用概念,二是通过关键词在文献中词频分布情况确定通用概念,三是基于关键词总词频与标准差二维信息获得通用概念。

研究结果表明:以上三种方法各有特点及使用范围,在概念获取时可以根据课题具备条件单独使用或组合使用。

关键词:叙词表 本体 通用概念 标准差 词频

概念的获取与分类是知识组织体系构建的重要工作。

例如,叙词表的选词主要由普通名词与专有名词构成,普通名词主要包括具体事物名称和抽象事物名称,具体事物名称例如“海洋”,抽象事物名称例如“铸造”;专有名词通常为人名、地名、产品名等,例如“孙中山”。

在本体构建中,概念词汇与实例词汇也是本体构建的主要成分,例如,可以用“城市”代表一个概念,而“北京市”则是一个实例。

在所有这些概念词汇的研究中,通用概念具有一定的特征和应用价值,数量上也占有一定的份额。

无论是综合叙词表,还是专业叙词表,通常都有一个单独的通用概念范畴,有的叙词表命名为一般概念,有的叙词表命名为通用词,这些词例如“研究”、“设计”、“应用”等,是在不同专业都有应用的泛指词,在概念组配方面有重要价值。

在国内图书馆学、情报学领域相关机构及领域专家的参与下,中国科学技术信息研究所启动了《汉语主题词表》(工程技术版)的编制与修订工作,通用概念的选词与词间关系的建立,是该项目的重要工作之一。

1、从传统知识组织体系中继承获取

1980年,《汉语主题词表》(以下简称《汉表》)编制完成并出版,上世纪80至90年代,我国叙词表的编制与应用达到了巅峰时期,编制了上百部的综合及专业性叙词表。

人类知识总是在继承中不断发展的,这些叙词表概念可以作为重要的原始语料或参考词汇,经过遴选直接纳入候选词库,根据修订和重新编制的原则,进行选词、分类、建立词间关系等叙词表编制工作。

原《汉表》通用概念分自然科学一般概念与社会科学一般概念。

自然科学一般概念的一级范畴号为92,下分为9个二级类目,其中92A是一般概念,例如机理、计算、结论、现状等概念。

其他二级类目包括92B形状、尺寸,92C时间、方位等,共收集了475个通用概念。

作为《汉表》修订项目,这些词在入选方面应该占有较大的权重,甚至根据这些词汇的统计数据属性重新进行分类。

例如,“计算”一词,需要统计在各级大类中的词频情况,根据词频大小,确定是继续放到通用概念下,还是放到0类(数理科学与化学)或TP类(自动化技术、计算机技术)。

另外,还有大量的专业叙词表,例如《农业科学叙词表》、《水利水电科技主题词表》(以下简称《水表》)等,同样有通用概念。

《水表》一级范畴号20“通用词”下设2个二级类目,20A为“复合通用词”,例如“安全管理”、“分布规律”等;20B为“一般通用词”,例如成分、利用、应用等。

2、基于词频分布人工获取通用概念

首先观察一个具体的例子,“设计”是一个公认的通用概念,以“设计”作为关键词检索万方数据,在“工业技术”类文献下,检索结果如截图1所示:

从图1可以看出,“设计”一词作为关键词,出现在所有工业技术下的二级类目中,而且词频数量巨大,对应的文献量巨大,有典型的通用概念特征。

使用“水库”一词进行检索,在“工业技术”类下检索结果如截图2所示:

从图2可以看出,“水库”一词的词频特征也非常明显,在“水利工程”类目中词频上万次,而其他类目中词频都非常低,直观感觉有显著的差异。

通过这样的.例子可以看出,“设计”是一个通用概念,“水库”是一个属于TV(水利工程)类的专业概念。

虽然以上两个例子简单明了,但存在具体操作问题。

在传统的叙词表编制中,概念的获取主要通过领域专家人工提供,耗时长,过度依赖领域专家个人隐性知识。

虽然提供的概念本身是符合编制规范的,但不同人员可能会提供不同数量的概念,存在概念覆盖面是否全面的问题。

通过统计关键词词频分布获取通用概念,不仅工作量大,而且同样存在阈值把握问题。

例如,如果词频为渐变或等差数列式递减,没有显著差异,则如何判断?另外,关键词词频与不同类目下文献数量也有一定关系,假设万方数据中“水利工程”类文献收集的比较少,可以推断“水库”关键词的词频也不会如此高,而万方数据各类目下的文献数肯定是不一样的,所以基于词频会存在误差。

3、基于类目间关键词词频标准差大小机器辅助获取

针对以上问题,本文试验了机器辅助获取、消除词频误差的相对词频与标准差方法,获取通用概念,统计方法与试验结果如下。

3.1 材料与方法

试验材料使用万方数据学术论文库,该库基本采用《中国图书馆分类法》的分类体系,文献共分22个一级大类。

一级大类“工业技术”下分16个二级大类。

抽取1987-20所有学术论文文献数据,提取论文的关键词,经过去重、去掉词频为1的关键词等数据清洗,得到总量约300多万个关键词,从这些词中随机抽取1万个关键词,用于完成本试验。

由于课题是《汉语主题词表》(工程技术版)的编制,所以抽取的关键词必须是在一级大类“工业技术”下的文献中出现过的关键词。

为了探索一个概念通常情况下出现在几个类目中,统计了这1万个关键词在16个二级类目文献数据库中的词频分布情况。

包括:关键词在各二级类目文献中的词频;在工业技术一级类目下的总词频;计算了每个关键词以上两项统计值相除后的相对词频值;使用相对词频值,计算了每个关键词相对词频值在16个二级类目间的标准差。

3.2 基于标准差排序获取通用概念

理论上讲,关键词首先应该在16个二级类目文献中都有词频,这样的关键词通常是通用概念,从试验数据中提取的在所有类目文献中都有关键词分布的词汇见表1。

从表1数据可以看出,19个关键词基本上都属于通用概念或是工业技术中的专业通用概念,标准差比较小的“设计”(0.0697)、“优化”(0.0566)、“调节”(0.0509)等,都是典型的通用概念。

随着标准差的增大,单个关键词虽然可以应用到所有文献中,但还是相对集中地出现在某一类文献中,例如,标准差为0.2121的“变压器”,应该属于TM类(电工技术),标准差为0.1487的“可视化”应该属于TP类(自动化技术、计算机技术)。

对于在15个类目中都有分布的关键词,同样可以使用标准差分布表,从小到大排序,截取标准差比较小的关键词,进行人工判断,选择常见的通用概念。

使用试验数据,选出“解决办法”(0.05)、“尺寸”(0.07)、“降温”(0.07)等关键词,也是非常典型的通用概念。

同样方法还可以考虑在14个类目、13个类目等文献中分布的关键词,具体考虑到多少个类目为止,需要根据具体

数据获取经验值,并在大规模数据中进行验证与评价。

3.3基于标准差与总词频二维信息获取通用概念

依据标准差判定通用概念时,重点考察了关键词的均匀分布问题,总词频的特征没有很好地体现,以表1中数据为例,关键词“热传导”(0.0438)、“冲击力”(0.0529)的标准差非常小,但对应的总词频分别为253、68,远远小于“设计”的总词频21252。

从数据特征上看,在判断优质通用概念时,应该同时考虑标准差与总词频两方面的信息,才能将在多数类目中具有关键词分布的通用概念细分和分块考虑。

本文借鉴管理学SW0T分析方法解决这个问题,方法是制作关键词二维分布图,横坐标为总词频,纵坐标为标准差,依据关键词总体数据分布相对集中的区域,给定分区模型,如图3所示:

根据经验判断,图3基本假设为Ⅰ区,Ⅱ区偏向专业分类,Ⅲ区、Ⅳ区偏向通用类。

具体细分为:处于Ⅰ区的关键词总词频低,标准差高,属于概念专指度相对高的专业低频概念,例如关键词“分散”(628,0.1233);处于Ⅱ区的关键词总词频高,标准差高,属于使用范围广但更集中、可以归入一个专业类的专业概念,例如关键词“变压器”(4114,0.2121);处于Ⅲ区的关键词总词频低,标准差低,属于概念专指度相对低、无法具体归类的低频通用概念,例如关键词“热传导”(253,0.0438);处于Ⅳ区的关键词总词频高,标准差低,属于典型的通用概念,例如关键词“设计”(2l252,0.0697)等。

对15个类目、14个类目等关键词统计的具体数据进行观察,发现总体特征符合以上规律。

如果作为工程项目,在大规模数据计算实践中,还需要进一步确定两个方面的指导值或经验值:①区分4个区交点的坐标点位置,而且不同的类目数,交点位置也是变动的;②关键词类目的适合数,例如关键词在5―8个类目中分布时是否还可以使用这样的方法进行判断。

4、讨论

4.1 通用概念与概念应用广泛的区别

在知识组织体系的概念分类中,通常会涉及到学科和主题问题,也涉及学科与应用问题,例如本文统计的关键词“变压器”,普遍应用于所有工业技术中,但从分类角度看,放到TM类(电工技术)更合理。

也就是说,如果从应用角度分,可以是通用概念,但从学科角度分应该属于专业概念。

最典型的例子是“计算机”。

当今信息时代,计算机已经成为各行业普遍使用的工具,统计文献的关键词词频,也会出现在所有分类文献中,但按学科分类,“计算机”这一概念还是应该放到TP(自动化技术、计算技术)类更合适。

这样一些概念,例如“设计”,各学科都通用,无法具体归到某一个专业学科分类中,是典型的通用概念;而类似“计算机”这样的概念,只能说应用广泛,而不是通用概念,所以通用概念与概念应用广泛有着不同的含义。

4.2 通用概念、专业通用概念、专业概念之间的关系

在数据处理中,通用概念与专业概念有时也不是泾渭分明的,在通用概念与专业概念间应该有一类词是专业通用概念,对应交点附近的那些语词。

在传统的知识组织体系中,这种现象也是普遍存在的。

原《汉表》的范畴类目,除了一级大类“自然科学一般概念”、“社会科学一般概念”外,43个一级大类下,也同时设置了大类下的一般概念,例如一级大类“67机械工程”下设“67AA机械工程一般概念”,“69水利工程”下设“69A水利工程一般概念”。

二级范畴"69B水文学”下有三级范畴“69BA水文学一般概念”,“地表水”是其一般概念。

所以,在专业内为通用概念,在专业间又趋向于专业概念,这类专业通用概念还是普遍存在的。

知识组织体系应该将这些概念进行明确区分,以有利于其分类与应用。

4.3 通用概念选词范围由知识组织系统的应用目的决定

通常情况下,类似“研究”、“应用”、“实践”、“理论”等词汇属于典型的通用概念,这些词的特征为专指度低、检索意义不大,用户检索文献时不会使用“研究”去检索。

但通用概念在概念组配方而具有重要意义,例如组成“问题研究”、“对策研究”、“经济研究”、“科学研究”、“理论研究”等先组概念,这些词多数也是通用概念。

由于知识组织体系的应用不同,一些词汇也可以放到专业范畴内,例如“经济问题”,可以放到经济类下作其专业通用概念,而不是与“研究”、“应用”等典型通用概念聚到一起。

为了加强分类导航功能,新版《汉表》范畴表主要参考了《中国图书资料分类法》的分类体系,通用概念将时间、地区、民族、科学机构、科学理论等相关术语都认定为通用概念。

所以除了典型的通用概念外,还需要考虑获取那些偏向于某一专业的通用概念。

5、结论

在叙词表、本体等知识组织体系构建中,需要获取并区分出通用概念。

本文研究了三种方法:第一种是知识继承的方法,即继承与参考已有知识组织体系的通用概念,这是知识积累方法,过度依赖传统数据;第二种是依据关键词在分类文献中的词频统计人工判定,凡是词频分布比较均匀、总词频比较大的基本上是通用概念,这种方法需要对数据分布均匀性进行量化;第三种方法是同时考虑词频与标准差的方法,总词频高、标准差低是比较规范的通用概念。

数字出版环境下的编辑方法与创新 篇2

数字出版环境下传统编辑的主动转型

随着各种新型出版形式的不断涌现,图书出版不再是传统纸质出版的天下,数字出版逐渐开始崭露头角,成为出版业未来发展的战略重点。作为出版中心工作的编辑活动,在数字出版时代发生了很大变化。这就要求编辑无论是策划选题还是编辑加工,无论是编辑方法还是编辑手段,都要做出相应的调整,以适应环境的变化。

1.选题策划上的转变

图书内容来自于选题,选题资源是图书产品的核心部分。只有好的选题策划才能真正满足读者的需求,才能带来良好的出版业绩。就目前来说,大多数出版社还做不到一开始就针对数字出版的选题策划,但是在这样的一种全新的出版形式下,传统编辑在策划选题时需同时关注:该选题的内容是否可以同时转化为数字产品?能够转化为何种数字产品?是以手机阅读还是网络阅读的形式出现?是作为单独的数字产品还是图书的附赠品以提高图书的附加值?等等。这些问题的提前思考可以更好地帮助传统编辑策划出适合数字出版时代的选题,从而提升所策划选题的盈利空间,扩展其市场前景。

安徽少年儿童出版社的《魔术笔记》是一套科普漫画图书,该图书在策划之初便以“实现涵盖图书、影视、网游、移动及电子阅读及相关衍生产品在内的全媒体产品形式”为目标,其以科学、漫画、魔术、故事四位一体,以全新的“快乐学习看漫画”体验,以具有自主知识产权的原创学习型漫画图书,更以试水全媒体出版、进行全产业链运作获得了多种奖项及资助。在纸质图书出版之前,《魔术笔记》电子书便成功借助苹果iPad实现全球发行,成为全球首批iPad中文应用软件之一。这主要得益于该选题在策划之初就将目光放在了全媒体开发的高度上,没有仅仅将策划的目光局限在纸质图书,而是从一开始就将开发电子书纳入了选题策划的视野中。

2.编辑加工上的转变

数字出版时代,编辑加工的工作内容及工作方法均产生了比较大的变化。不同于传统出版的只注重纯粹的文字加工,数字出版环境下编辑加工更强调的是内容资源的深度加工和多重利用开发。编辑应遵循“一次加工、多重利用”的原则,做好内容资源的深度加工与开发,使经过开发的内容资源能适应多种不同的用途,满足用户的多样需求,从而具有更强的生命力。面对这些新鲜的载体形态,编辑要充分了解它们的形态特征,并根据自身的选题内容属性、分类、出版特点等,做好适当载体的选择和相应的开发与加工。

安徽少年儿童出版社的《感知生活图画书》便是利用纸质图书美轮美奂的图画,加以动画效果的转化,推出了《云朵变的小羊》等网络出版物。该图书在网络上一经推出便深受家长和幼儿的喜爱,下载量逾20万次。其纸质图书也在传统销售渠道深受欢迎,多次加印。同一内容一次生成之后的多角度开发及深度挖掘、充分利用模式,不仅可以节省编辑的时间与精力,更可以节省成本,达到该产品商业价值的充分实现。

数字出版环境下编辑思路的不断创新

编辑活动在数字出版时代发生的变化,对作为出版主体的编辑也提出了新的要求,包括知识结构、实践能力和编辑思维等诸多方面,都需要提升、完善和发展。与此同时,创意作为内容产品的灵魂,是内容产品实现其商业价值的关键。而目前许多媒体的产品内容质量不高,很大程度上表现为缺乏创造力。正如学者吴平所言:“编辑有了思维才能正确认识编辑对象的发展规律。编辑思维决定着编辑活动的层次和质量。”编辑主体要适应数字出版工作,要使自己策划的选题具有与众不同的特征、创造性的特色,就需要以全新的编辑思维来应对已经变化了的编辑活动。

1.充分开启发散性思维

发散性思维是指与集中思维相对的一种思维方式,它对问题从不同角度进行探索,从不同层面进行分析,从正反两极进行比较,因而视野开阔,思维活跃,可以产生出大量的独特新思想。著名的心理学家吉尔福特指出:“人的创造力主要依靠发散思维,它是创造思维的主要部分。”编辑在编辑活动中,要充分开启自己的发散性思维,从策划选题开始就尽量地拓展思路,从多个角度、多个层次进行思考,使所策划的选题方案不仅仅只针对某一个销售渠道,或者是某一种出版形态;而是从源头开始便考虑到不同版本形式、不同阅读方式,以及不同消费群体的个性化选择和个性化需求。作为图书编辑要正视这种变化,客观分析这种变化给出版带来的有利因素和不利因素,并在编辑工作中积极采取方法应对,合理利用和扩大有利因素,积极规避不利因素的影响。

2.积极增强与读者的互动意识

互动意识在传统出版工作中也有所体现,但是更多地局限于编辑主体与作者之间的互动,而在数字化出版环境中,编辑主体除了要与作者继续保持更加密切的沟通外,还要尽最大的努力与读者保持频繁的互动,只有如此,数字出版的优势才可能得到更好的发挥。

在数字出版环境下,对编辑的要求,尤其是对其与读者之间互动的要求进一步提高了。因为,数字出版环境下的读者(受众)无论是从阅读方式,还是从阅读需求、阅读导向,均与传统阅读时代不同。“作为一种表现时代精神的思想性范畴,‘后现代’所要表达的是一种‘不确定’‘模糊’‘偶然’‘不可捉摸’‘不可表达’‘不可设定’‘不可化约’的精神状态、思维模式、品味模式和事物状态。”受众的阅读方式出现了很明显的后现代特征;传统阅读推崇的“读万卷书”已经逐渐被后现代阅读推崇的“一览无余”“网行天下”逐步侵蚀。面对这种变化,图书编辑惟有不断加强与读者的互动与沟通,切实掌握读者个性化的阅读需求,重视读者的多样化选择,才能不断开发出适合不同市场的、富有多样化的形式与多元化内涵的阅读产品。

随着数字技术的迅猛发展和广泛应用,各种新媒体的出现和普及在一定程度上为传统出版提供了新的发展动力,因此,我们只有积极适应新变化,积极调动新技术手段来为图书出版服务,才能不断推出新的文化精神产品,编辑的主体地位与编辑活动的价值才能得到充分体现。

(作者单位系安徽少年儿童出版社)

上一篇:图书采编述职报告下一篇:五年级(下)写字教案