建立我国科技信息联机检索系统势在必行
科技信息是科学研究和科技创新的重要资源和基础条件,是整合、管理和协调科技创新体系的重要组成部分。充分借鉴国际发展经验,建立完善适合我国国情的科技信息联机检索系统,是促进科技资源开放共享、提高创新体系建设整体效能的重要举措。
大型专业的信息联机检索系统是科技信息资源开放共享的重要方式和手段
1997年,经济合作组织(OECD)在一项关于国家创新体系的研究报告中指出,知识与信息在创新主体之间的流动速度、配置能力,将直接影响着一个国家科技创新效率的提高。各国政府都把科技信息视为最重要的国家战略信息资源,并把信息资源建设作为国家信息基础设施建设的重要组成部分。美国科学技术信息纲领(STIP)是以总统法令形式发布的、由国会参众两院通过的一个政策文件,其宗旨和目标是对国家的科技信息以及由政府和国会拨款完成的各类科研和工程项目所取得的成果,进行有效地收集、分析、管理、加工和传播,以提高国家科学技术研究项目的效益,避免不必要的重复劳动和资源浪费。日本把科技信息事业作为面向未来发展振兴科技的基本事业来抓,认为加强科学技术研究领域信息化是必不可少的先行投资,力图通过加快推进科研领域的信息化,保持世界一流的研究环境,从而提高科学技术研究水平。
大型专业的信息联机检索系统是科技信息资源收藏、传播、共享和利用最重要的方式和手段。美国的Dialog系统、法国的QuesteloOrbit系统以及美国、德国和日本共建的STN系统,是当今最为知名的三大国际联机检索系统。尽管随着互联网技术的快速发展,用户可免费从网上获取的资源不断丰富,但就检索资源的系统性、完整性、准确性而言,还是不能与大型专业的信息联机检索系统相匹敌。大型专业的信息联机检索系统的优势主要体现在以下几个方面:
——信息质量更好:许多数据库收录的内容都是经过深加工处理的,例如STN系统中的化学文摘数据库(CA-plus)、德温特世界专利索引数据库(DWPI)等。与普通数据库相比,深加工数据库的检全率和检准率可以得到更好的保障。
——检索功能更强:允许用户同时在几个或十几个数据库中进行跨库检索,支持复杂的专业检索指令,从而达到高效、精准的检索效果,可以更好地满足高端用户的需求。
——具备特殊检索功能:化学结构、基因序列等特殊信息的检索目前只能在联机检索系统中才能实现。
——数据挖掘和分析能力强:通过配套的工具软件,允许用户对检索结果进行数据挖掘和分析,从而实现对数据更深层次的解读,实现由信息服务向决策服务的方向转变。
国外大型信息联机检索系统的发展经验
大型专业的信息联机检索系统由于专业性强、技术门槛高、初期投入大等原因,纯粹靠市场机制进行开发建设的难度比较大。国外一般采用政府给予资金资助,专业机构开发或联合开发建设,逐步实现商业化或半商业化运营的模式。例如,全球最大的国际联机检索系统Dialog建于1963年,最初由美国洛克希德导弹航空公司所属的一个情报科学实验室负责,1968年开始为美国国家航空航天局(NASA)提供数据服务。1981年,Dialog成为洛克希德的一个子公司,开始独立经营,随后经历多次商业兼并与收购,现为美国剑桥信息集团(ProQuest)的一部分。目前Dialog系统包含900多个数据库,涵盖商业经贸、科学、技术、工程、法律法规、金融服务、环境、能源、医学、药物、化学化工及电子信息行业等几乎所有的领域。据报道,Dialog拥有2万多个集团用户群,每一个集团用户都有数量不同的最终用户,其中包括世界500强跨国公司和许多世界著名的大学和研究机构,分布于全球130多个国家和地区。
STN是1983年由德国、美国和日本的三个非盈利机构以跨国合作的方式成立的联机检索系统。这三个机构分别为德国莱布尼茨学会卡尔斯鲁厄专业信息中心(FIZ Karlsruhe)、美国化学学会化学文摘社(CAS)及日本科技情报中心(JICST)。STN在全球设有三个服务中心,分别设在德国卡尔斯鲁厄、美国哥伦比亚和日本东京。用户只要与其中一个服务中心的主机联机,就可实现对三家主机的同时访问,这是一个真正的国际性科技信息检索系统,1986年全面对外服务。
与Dialog系统不同,STN是纯粹的科技信息系统,其用户对象主要是科技人员和知识产权人员。目前该系统有220多个数据库,数据库内容涉及化学、工程、生命科学、生物技术、专利、数学、物理等各基础学科领域和综合技术应用领域,每个数据库都是本专业领域内的权威数据库。与Dialog系统纯商业化运营不同,STN系统采用的是半商业化运营模式,除了自身的营收之外,每年都会得到德国政府和日本政府的部分资助。
建设适合我国国情的科技信息联机检索系统
经过几代人的共同努力,我国科技信息事业从无到有、从小到大、由弱变强,已经颇具规模。在系统开发方面,我国多家科研机构已经在海量数据检索系统研发方面积累了相当丰富的经验。在资源建设方面,2000年经国务院批准成立了国家科技图书文献中心(NSTL),它是由理、工、农、医等领域的科技信息服务机构组成,面向全国的共建共享科技信息资源联合体。在数据深度加工标引方面,国家知识产权局分别于2000年和2003年相继启动了中国中药专利文献深度加工标引和中国化学药专利文献深度加工标引等项目。在市场化探索方面,1997年中国第一家专业科技文献服务公司——万方数据股份有限公司成立,之后清华同方、重庆维普公司等一批科技信息服务企业相继成立。
同时,我们也要认识到,与美国、日本、欧盟相比,我国科技信息事业无论是在信息资源建设、加工深度与开发力度、技术水平和技术手段、人才培养方面,还是在服务规模、事业规模方面都存在着相当大的差距。迄今为止,我国尚无一套能与上述三大国际联机检索系统相当的科技信息联机检索系统。如果我们不采取措施迎头赶上,这种差距有可能进一步拉大。我们要充分借鉴国外的发展经验,结合我国科技信息管理的实际,建立适合我国国情的科技信息工作机制和联机检索系统。
一是建立健全科技信息收藏、传播和共享的长效机制。从国外的经验来看,一个庞大的科技信息系统并非一蹴而就,而是要经过政府各部门的长期努力和通力合作。近年来,我国科技投入快速增长,政府财政资金支持的科研活动是生产大量科技信息的主体,也是促进科技资源开放共享的重点内容。要进行系统规划和长期安排,进一步完善科技信息收藏、传播、共享的法律法规和技术标准,明确科技信息工作的管理机制、职责任务和工作程序,把科技信息的开放共享作为政府科技管理工作的一项重要任务来抓。
二是加强重点科技领域信息资源深度加工工作。数据质量是信息系统的生命,与非深加工的原始数据相比,经过人工深度加工标引的数据质量更好,信息的查全率和查准率可以得到明显的提高。这也是CA-plus、DWPI等深加工数据库虽然价格不菲,但仍然是跨国公司、专利局审查员等用户首选工具的原因。在深加工数据库开发建设方面,我们应该采取引进与开发并举的策略。一方面积极引进国外知名的数据库资源,另一方面要集中资源优先建设一批对国民经济和科技发展有重大支撑作用的深加工数据库,例如生物技术、信息技术、新能源、新材料、新能源汽车等战略性新兴产业科技信息深加工数据库。同时还要把我们自主开发的科学数据库与国际科学数据库接轨,努力进入国际市场。
三是充分利用最新的信息技术高起点前瞻性部署。由于信息技术的迅猛发展,现在与几十年前Dialog和STN系统开发建设时的技术条件和环境已经完全不同。云计算技术为科技信息收藏、传播、共享和服务提供了新的手段,大数据挖掘技术可以对数据进行更深度的分析和解读,有助于实现传统的信息服务向决策服务的转变。我们完全可以充分利用最新的信息技术,在一个更高的起点开发建设自己的科技信息联机检索系统。