文献智能与文献引智

    胡道静先生在“神州智能与科技古籍”一文中把科技史中那些闪耀着中国文明特色的智慧和技能,总称之为“神州智能”。科技史的研究手段中,文献检索是基本手段,许多古代科技文献得之于图书馆的收藏。所以从载体上讲是“文献智能”。
    卡夫曼教授不仅是世界模糊数学权威,也收集了最完备的模糊数学文献资料并进行了分类。
    叶鹰教授在文章中指出:哲学文献是哲学的真正依据,哲学思想应从哲学文献中去发掘,文化哲学和符号哲学本质上是文献哲学。
    刘文旋老师认为:研究文本不是建立真理库,也不是建立资料库,它有点类似人与某种自然资源的关系,但与自然资源不同,文本作为思想的资源,是取之不尽用之不竭的。
    国家最高科技奖获得者吴文俊教授在自动推理研究上率先取得成就,使数学机械化成为现实。他的以解方程为特色的机械化计算体系被国际上称为“吴方法”。吴文俊教授说,他的这一方法直接导源于我国传统数学的思维方法,它是从《九章算术》开始的。
    我国最早的图书馆学教育机构(文华图专)的校训即为“智慧与服务”。周文俊教授也提出了“图书馆智慧”这个概念,文献检索不仅是一种过程,而是要求结果,能够引出新结论,来直接被利用,它逐渐成为科学发现的一种特殊的方法,充满了图书馆智慧!
    图书馆教育职能包含了:以客体(文献)智力开发主体(读者)智力。
    科学学家赵洪州认为科学发现过程好比采掘过程。人脑知识组织与文献知识组织是否对应、有类似性?
    图书馆不仅是文献库,还要成为脑库——兰德模式。“社会记忆”项目和机构库是基于文献文化遗产的保存,还需要开发文献科技遗产、采掘文献智能。
    文献资源布局不只是科技发展问题,也应与区域经济发展匹配,大学城、高新技术开发区等(人才资源)智力密集区也应是文献智密区。如长江流域经济开发,该区域的图书馆会组织联盟服务区域经济。

    文献智能采掘
   
文献智能采掘主要用于科学普及和科学发现。
    科学普及即科学与社会的交流渗透、对社会的影响过程。从原始文献到二、三次文献可以说是学科专业内科学交流普及过程。随着交叉学科的发展,跨专业科学交流普及也成为专业科普过程,如中国学者创立的新学科“可拓学”,通过经典文献发表时间、被其他专业(如建筑学)引用情况,被媒体报道情况等计量学科交叉过程。而把科学知识介绍给普通读者,提高大众科学素质是通常意义上的科普过程,如通过“锚文”计量科普过程。
    科学发现主要通过文献比较分析(非交互文献知识发现法)。荣毅虹在《情报学报》上发表有“基于文献的发现”。
    文献的比较分析(MA)的应用首先是对文献进行综合审阅,但不用于传统的文献综述,MA关注的是问题而不是概况,并需给出定量的答案,这种方法首先是从医学图书馆员开始的。通过医学文献和临床报告的比较分析,发现两者间关系。MA是沟通医学基础研究、临床试验和医疗实践的桥梁。
    文献比较分析方法是通过文献比较研究,引出研究结论的图书馆方法,它使图书馆员处于独特的角度去发现文献间内在的逻辑关系,是通过找出不相关文献中的逻辑关系,进而发现和创新知识的过程。美国提出临床医学图书馆员的概念,以缩短文献—实践之间的距离,成功的例子如1997年Swanson and Smalheiser的工作,通过半自动分析生物医学文献题名,获得了一个完全创新,有价值的医学猜测:偏头痛与人体镁元素的缺乏有关。方法是通过确定一组报告变量A和B之间关系的文献和一组B和C之间关系的文献,并确定在现有文献中不存在描述A和C之间的关系,这样A和C之间的关系就是潜在的新知识。B是“桥式文献”。
    医学专业远未将隐藏在文献中的大量有价值的信息与医疗实践所需要的信息进行有效对接。

    文本知识与机器发现
    数据挖掘又称数据库知识发现,但除了结构化的数据之外,就是文本。知识表示与本体论为文本知识发现提供了机会。由于医学领域的次语言效应及医学领域文献资源的重要性,现今多项重要的文本挖掘项目都面向医学。
    计算机检索原理很大意义上讲是文献知识组织方式的机器还原。
    计算机不但在形式科学上做出发现,如吴文俊教授在机器证明方面做出的贡献,而且还可以在经验科学上做出发现。前者被称为机器证明,后者被称为机器发现。机器发现的科学方法论的意义是复活了部分科学发现程序的研究,机器发现对于我们重新认识波普尔所说的三个世界也是非常有意义的。文献智能从载体上讲是客观世界,从内容所体现的智慧和技能上讲是主观世界,整体上讲是不是属于第三世界呢?我的老师刘迅在波普尔世界三理论上对图书馆界有过深刻的影响。
    机器发现的结果是在人机相互作用下产生的,只有计算机在发现过程中代替了人的部分思维过程,在这个意义上,才有机器发现这个概念。机器发现的目标是做出经验科学领域认可的有价值的发现。
    文献智能也如此,只有通过图书馆员的智慧服务,挖掘文献智能,发现知识,从而开发读者的智能。
    智能互联网是下一代互联网的另一种模式,让具有智能的计算机程序在互联网这种动态开放的无限网络环境中运作,并为人们提供智能的服务。
    智能图书馆建筑和智能图书馆并不是一个概念。美国斯坦福大学人工智能专家预言:以知识信息处理系统(KIPS)为基础的智能图书馆,不仅提供知识和情报,而且还提供智能。

    文献引智
    目前,高校引智项目,主要是“人”的引进。在重视文献遗产保存的同时,是否要重视文献智能,在引智计划中设计“文献引智”项目。前苏联的基础研究在世界处于领先地位,人才与文献资源储备丰富。美国在前苏联解体时,成车皮引进前苏联的激光文献。是成功引进文献智能资源的例子。国内图书馆也有成批引进满铁资料的作法。
    文献引智对高校新增学科建设有重要意义。而且文献引智也有助于技术前沿的预测。   
    杜建老师在博客中介绍了美国佐治亚理工学院Alan Porter教授(聆听Alan Porter教授关于技术挖掘的报告的体会http://blog.sciencenet.cn/home.php?mod=space&uid=335532&do=blog&id=454822),他是将文本挖掘技术用于技术预测与评估的全球领军人物。他提出,研究知识扩散可以通过以下几个角度进行:(1)研究者之间的扩散:通过引文进行跨学科的分析;(2)面向技术创造者:通过专利文献中引用非专利文献的比例,反映科学对技术的贡献;(3)转化研究:最近两年新提出的转化医学领域,即生物医学研究成果及时向临床医学转化。他还在报告的最后提出,他现在正在研究“知识扩散的过程”,特别是“新的扩散指标”,即用哪些指标来测度知识的扩散。
    Alan Porter教授采用基于多数据源的联合分析,来进行技术挖掘。专利文献我们主要用于创新评价,在这里通过专利文献与SCI、EI、商业数据联合分析,专利参考文献中科技文献(非专利文献)比例的年代分布,反映科学对技术的贡献。如果有关某项技术的专利文献中引用科技文献的比例逐年降低,且比例很小。那么可能就提示关于这项技术,再投入大量的基础研究已经价值不大了。分别在4个数据库中分析了“染敏太阳能电池”涉及的两种染料,即“金属络合染料”和“有机染料”的文献量的年代分布,4个数据库都证明在最近两年,“有机染料”的文献量都开始高于“金属络合染料”(之前是低于),提示有机染料可能会代替金属络合染料。等等。
    从数据的角度分析技术路线图,为新兴技术制定技术创新发展的路径提供基础,为技术管理者和决策制定者服务。

    王波先生在博文里称2009年是傅荣贤年。他不仅写出了古文献“《七略》的文化哲学本质”,还写有“对图书馆学研究对象‘知识说’的反思——从知识之学走向智慧之学的取向”。且在“实然的超越和应然的解说:图书馆学如何提高学科地位”一文中解说了——“文献”是记载一切“文化”的载体。

    我用T.S. Eliot “Where is the wisdom we have lost in knowledge? Where is the knowledge we have lost in information” 的一段话做结语:
    Data is not information
    Information is not knowledge
    Knowledge is not understanding
    Understanding is not wisdom
(智慧)

    相关链接:
    1、《科研四谈》之三:课题来源之泉----Swanson 非相关文献知识发现法
      http://bbs.sciencenet.cn/home.php?mod=space&uid=77930&do=blog&id=40609
    2、聆听Alan Porter教授关于技术挖掘的报告的体会
      http://blog.sciencenet.cn/home.php?mod=space&uid=335532&do=blog&id=454822
    3、基于文献的知识发现----Swanson
      http://baike.baidu.com/view/1377555.htm

点击微信扫一扫