能力科学—综合门户网
教材 放眼全球 国际常识 古往今来 天下兴亡 中外秘史 社会万象 无声激战 中外典故 防止陷阱 少儿天地 声明
公益 贤明首脑 科学巨匠 历史巨人 教育名师 清官贤能 民族英雄 百业之星 能工巧匠 慈善天使 俊男美女 公敌
范文 百科知识 科学大观 天下风情 看看世界 百家争鸣 知识问答 优秀读物 高效政府 富美城乡 社会文明 咨询
会员 国际网页 国际联盟 本网业务 各地标志 优服行业 良心食品 医疗保健 生存秘笈 友情天下 联系我们 投稿
kesioncms

栏目中心

您当前位置:能力科学网 >> 人生导航 >> 优秀读物 >> 优秀文章 >> 浏览文章

利求同:Pinakes:谷歌百度们的鼻祖

2011/5/31 0:37:31 原载《书城》11/2010 利求同 【字体:

 

 

 

世界变得真快。现在的人查找信息,只要上百度或者谷歌,输入一两个关键词,立刻,荧屏就给出了相关的网页网址。想想,在成亿的网页,上兆亿的信息存储中,如此快速准确地检索出结果,再有条不紊地排序显示,这是多么困难而又神奇的事!谷歌百度们的创始人和工程师了不起呀。然而,跟世上别的发明一样,互联网的超级信息检索功能也不是凭空冒出来的。它是人类知识生产发展史上的一个阶段性成果,是系统性知识管理和使用,借助数字网络技术,酝酿出来并正在实现之中的一次划时代的飞跃。而在这部知识生产管理史的开端,站着Pinakes,西方世界第一部图书馆分类目录。

Pinakes诞生于托勒密王朝的亚历山大城图书馆,距今已有两千三百多年了。它的希腊语原意为清单、表格,是“百科鸿儒及其著述综合目录”的简称。整部目录共一百二十卷,囊括了大城图书馆的全部馆藏,以及虽未能入藏,但名见经传的各国著作。亚历山大城图书馆以广集天下书籍为己任,是托勒密王朝希腊化统治大业的一块基石(详见拙文《心智的圣所》)。鼎盛时期,馆藏高达七十万卷轴,涵盖哲学、宗教、法律、文艺、科学各个知识领域。庞大的藏书引来无数优秀学者,使亚历山大城迅速上升为地中海世界的文化中心,凸显了王朝的荣耀。但图书馆员和缪斯殿的学者发现,卷轴积累到一定程度,这座宏伟的知识宝库变得难以管理,既不能确知收藏范围,查找起来更像大海捞针。而且可以预见,随着纸草纸卷轴增加,问题会日益严重。有位名叫卡利马科斯(Callimachus of Cyrene,约前310~240)的哲人感叹:“书籍越多,麻烦越大”。卡氏活跃于托勒密二世和三世朝,是缪斯殿名望极高的学者,著有八百多首诗歌,据说是仅次于荷马,被古代语法学家引用最多的希腊诗人。于是,托勒密三世命他解决这个“麻烦”,编制一种工具,以改变大城图书馆入藏书籍的无序状态。Pinakes的修纂就这样开始了。

万事开头难。当时还从未有人处理过如此庞大的藏书,没人知道这任务的深浅。书籍是人类知识的文字记录,也是知识创造、积累、传播以及再生产的重要载体。所以,Pinakes要解决的不仅是大城图书馆的馆藏组织,而且事关知识生产与管理使用。更微妙的是,希腊化前期(前332~215),地中海世界正处于口述传统向书写过渡的重大变革之中,各地出现大量卷轴,把亚历山大城图书馆推到了风口浪尖上。习惯上,我们总是把书写看作记录、教授、传播和保存知识的主要手段,赋予它优于包括口述在内的其他交流手段的权威地位。伟大的英国史家吉本,在《罗马帝国衰亡史》中就理所当然地认为:“文明人类与没有知识、亦不能反思的野蛮部落一大差异,便是使用文字”(卷一章九,页218)。但追溯历史,古代社会有很长一段时期是由口述传统主宰的。古希腊就曾是一个典型的口述社会。在黑色图案陶罐时期(前7~5世纪)的出土陶器上,我们找不到卷轴的形象,弹琴吟唱的歌手却屡屡出现,知识和经验的承继,主要靠口耳相传。例如荷马史诗,就是一代代歌手演唱加工光大的成果,即便有了文字版本之后,仍然主要靠说唱来传布。苏格拉底也偏爱口述,长于辩论,相信演讲是导向真理的最佳方法。他认为,口述可以让人们在听讲的同时,参考讲演者的声誉以及现场表现,来判断他的话是否诚实真确。在他看来,书写反倒是不值得信任的而易朽的,因为隔断了文字内容同作者的行为、荣誉及品格的现场关联。由于这一“偏见”,苏格拉底坚持述而不作,把面对面的授课和辩论,视为自己哲学思想的标准“版本”。

然而,口述的缺陷也很明显。比如哲人过世后,他的思想就处于开放状态,任人诠释改造,很难保证承传的忠实。而且,知识承传仅靠授课和公众演讲,大大限制了传播范围。于是变革悄然来到。在红色图案陶罐时期(始于前530年左右)的出土陶器上,开始有了卷轴的形象。柏拉图的态度,可看作是过渡时期的代表。他认为,书写是一种不完善的知识传播方式,仅是作者对知识与事实的回忆。文字不能回答人的询问;受到质疑挑战,也无法为自己辩护。所以,只有美好心灵的现场展示,才是思想的唯一正统的表达,能够结出正义的花果(参见《美国百科全书》卷十二)。同时,他却详细记录了苏格拉底的言行,“固定”老师的学说,使其有了可靠而权威的解释而流芳百世。事实上,柏拉图用自己的文字,参与确立了书写的权威。而被伯拉图称为“读书人”的亚里士多德,继而创立了一种新文体即讲义式的论说文,来阐述学术思想。他把一个个看似无关的理论组织起来,就其异同之处展开分析,以充分揭示理论的内涵要义,追求阐释的完满。这文体回应了柏拉图对书写的疑虑,大大丰富了逻辑和修辞,从而能够胜任复杂精致的哲学思辩与科学探索(参见麦克尼理,页12-13)。

于是,书写逐渐占了上风。但文字记述的最后胜利,还有一个技术关卡,即如何组织和检索大量累积的纸草纸卷轴。这个问题不解决,藏书就无法妥善管理、查找,书写担当知识承传的主要手段就只是一种奢想。组织检索之成为难题,要由图书馆解决,是书籍文明特有的挑战。之前,在口述时代,知识经验由授课、讲演、辩论、表演等方式传播,其存在和归宿直接依附于口述者,在口述者的活动范围内产生影响,其有限的累积和检索都由人的脑力完成,随口述者生命的结束而终止。文字记述却不然,一旦作成,有了独立的物质形态,就脱离作者,固定下来,加入书籍的流通,为图书馆所收藏。因此,书写传统的生命力最终依托于书籍的收藏者和使用者,而非撰写者。这使得知识能够以各种书写形式大量积累,从而必须建立专门的管理和检索手段,才能有效使用。亚历山大城图书馆编制分类目录,正是为此目的。所以历史地看,Pinakes肩负的竟是书写传统的前途。

当然,托勒密三世启动Pinakes计划,自有统治者的考虑。大城图书馆是托勒密王朝最重要的知识管理系统。国王知道,光收藏卷轴是远远不够的,关键是要图书馆和书籍知识服务于王朝大业。因此,藏书必须妥善管理。Pinakes于是意味着地中海文明圈系统化知识管理意识的觉醒,象征着知识产业的管理从分散随机无序状态向集中系统规则的方向转变。一个知识新纪元越出了地平线。

这是Pinakes的大时代背景,具体步骤,则须完成馆藏管理的两大基本任务:馆藏整体组织要系统简明;每一部卷轴须存取检索方便。方法多样,有难有易。如作者、书名、年代等等,都能用来整理检索。但卡利马科斯认为,卷轴包含的知识内容是馆藏最重要的财富,是读者的重点检索对象。只有把内容按知识分类,作为藏书组织检索的第一标识,才能最有效地实现馆藏的使用价值。为了实现这一图书分类的基本设想,首先得调查书籍蕴含的知识范畴,以及范畴间的关系,据此构造一个知识分类系统,将藏书按知识的内在结构组织起来,供读者检索使用。

构造知识分类系统谈何容易,好在卡氏不需要白手起家,各地图书馆已经积累了不少经验,可以借鉴。而Pinakes的科学性及理论基础植根在了希腊古典哲学的分类学理论。例如,柏拉图在《政治家篇》(Statesman)里提出:分类应基于事物的特征。据此,他将知识按功能分为实用知识和理论知识两大类,并指出这两大类构成知识的整体。这就明确提示了分类的两个基本原则:类目间具有相互排他性;类目之总和须穷尽整体。接着,亚里士多德在《工具论》(Organon)中更进一步,对范畴概念作了详尽的分析,总结出十大范畴和四种属性,提供了归类界定操作的基本方法和思路。按这些原则,卡氏根据馆藏,对所有已知的知识领域加以整理归纳,总结了埃及、两河流域、希腊和波斯等各民族文化的知识生产的成果,梳理出学科脉络,构思了一个知识分类系统。接着,便是要把这个构思直观而简洁地表述出来,做成分类表,让图书馆馆员和缪斯殿哲人用来组织检索藏书。这个任务不似想象的那么简单,因为需要精选语词,准确地表达学科分野,并控制词义,形成规范,而且要能被图书馆馆员和读者普遍接受使用。希腊古典哲学又助了卡氏一臂之力。柏拉图和亚里士多德等人,都探讨过“名”(语言)与“物”(客体)之间的关系,为知识分类的语词表述提供了的理论依据。卡氏的诗人才华和驾驭语言的能力也派上了用场。他系统地收集术语专名,考察语词在自然语境中的使用,分析其内涵外延,界定词与词之间的语义关系,优选出一组组词汇。然后,制订一套规则来确定这些词汇的排序组合,勾画出各知识部门的分野和内在关系。这一组组词汇依规则组织起来,呈一个等级式逻辑结构,把错综复杂的学科关系网条理化了,效果上则是简明易懂易用(参见布鲁姆)。

有了分类系统,卷轴便可以归类汇总,呈现出馆藏知识内容的整体结构,Pinakes的主框架成型了。但分类体系处理的是知识范畴,不具备表述类目中每部卷轴之个性的功能。而藏书必须依次存取,检索得落实到具体作者和书名。因此Pinakes还得另想办法,在归类之后,对卷轴作进一步细化处理,直到每一部卷轴获得唯一性标识,各自在类目中占居独一排他的席位。卡氏根据语言文字的内在逻辑和纸草纸卷轴的物质形态等,引入辅助手段,如希腊字母。希腊字母的顺序在公元前九至八世纪间已经成熟,并广泛使用。作者和书名如果采用字母顺序排列,就一目了然,非常便利。再如著作成书年份、多卷本卷轴次序和开本等物态特征,也都可资利用,做成唯一性标识。把分类系统和辅助手段两者结合使用,Pinakes便能胜任组织检索大城图书馆馆藏的基本任务了。

亚力山大城图书馆的建筑和藏书早已毁于战乱和宗教狂热,Pinakes的全貌现在已不可恢复,只能根据仅存的二十五个残片来大致推测重构。Pinakes以学科为主干分类,学科之下,分出次级学科,形成一个主次学科的从属等级结构。然后,按作者姓氏的希腊字母顺序排列,附作者生平简介及著作清单。当时,书籍常常没有标题或标题雷同,Pinakes就引录著作的开头几行,以提示内容,准确标定每一部典籍和卷轴。残片列出的学科有:修辞、法律、诗歌、历史、哲学、医学、其他著述(包括食谱、宴会等)。各学科之下再归类细分,例如诗歌下分出:史诗、抒情诗、悲剧、喜剧,等等。作者名下则列出著作,如(费福尔,页128~129):

作者名

   关于世界的河流

   关于鸟类

   关于争斗

   岛屿城邦的建立及其名称变迁

   按邦族命名

这一结构看似简单,但已是一个完整的分类目录,甚至包含了现代高端信息检索系统的几乎所有基本要素。我以为,Pinakes首创的知识分类与图书编目的基本原则和机制,具有四大强势“基因”,为后世的检索工具继承光大,造就了今天的谷歌百度。

 “基因”一,开放包容的结构模型。这是知识管理系统的生命之泉。Pinakes告诉我们,检索系统的框架结构必须稳定,才能适应知识管理连续性的需要。为取得稳定性,检索系统应该是开放式的,具有吐故纳新、不断扩展的能力,以跟上人类知识不断创新发展的步伐。例如,一个分类体系应该能够通过微调,随时吸收包容生物学、人类学、经济学等新兴学科,以及它们的分支末梢,如发展生物学、医疗人类学等,而不必妥协或破坏现有体系的逻辑结构。如果做不到这一点,当知识生产出现突破,整个检索系统就不得不重建。而重建一个大型系统,造价是十分昂贵、费时费力的,在竞争激烈的现代市场经济环境中,没有人能够冒此风险而不被淘汰。稍加留意,我们就会发现,互联网就是一个开放式的环境。只要遵守一定的规则,任何人都可以随时添加任何信息,而谷歌百度等搜索引擎准能把它们检索出来。这,就是Pinakes开放原则的“魔力”。

 “基因”二,多重排序复用模式。这是所有信息检索工具的能量所在。Pinakes的知识分类框架用人名书名等方法细化,使每一部卷轴得到唯一标识,这一多重排序大大增强了处理复杂知识产品和检索要求的能力。亚历山大城图书馆时代,受制于手工劳动,Pinakes只能把有限的几种方法结合起来使用,用当今的标准衡量,检索能力并不高。二十多个世纪之后,现代数字技术把信息处理的速度提升到天文数级别,多重排序复用模式终于有了大展身手的机会。谷歌声称,它复合使用了高达二百来种方法,提高检索的查全率和查准率,控制检索结果的显示排序。谷歌的多重排序复用模型专有技术,是公司的核心商业秘密,但其基本原理,却可以追溯到Pinakes。

 “基因”三,规范标准化文献描述格式。Pinakes的优点之一,是挑选出尽量简约、最能代表一部著作的特征要素,如作者、书名等,用规范的顺序和书写格式加以固定,依此描述每一部文献,并用来显示检索结果。有了这种标准格式,馆藏中内容形态各异的卷轴都化为统一的表述。如果说多重排序复用模式是将信息个性化的努力,标准化文献描述格式则是其同一化的过程。这种标准简化了信息处理程序,检索功能和经济效率同步提高,为大规模信息处理创造了必要条件。今天,数字技术进入信息处理正是以这类标准化为前提的。谷歌百度们对标准化文献描述格式及其衍生格式(标准)的空前的依赖,就是典型的例证。

 “基因”四,利用引文,标识检索。这是自然语言检索的源头,体现了“使用至上”的原则。Pinakes引录著作的开头几行,纳入文献描述的标准格式。这样,通过引文,馆藏目录中描述书籍内容的信息增加了,从而帮助读者对检索结果作出知情的判断,明显提高了检索效率。更有意义的是,将引文即自然语言纳入目录,作为标准格式的一部分,Pinakes的编撰者已经在经验层面认识到,从作品语言中可以直接提取有关文献内容的准确表述。这个做法看似笨拙,却孕育了现代检索工具最振奋人心的革命:自然语言全文检索。自二十世纪中叶开始,全文检索成了科研热点,随着数字技术突飞猛进而日臻完善。如今,检索者可以就任何题目,输入任何词汇或词组,都能从搜索引擎获得相关信息。这“举手之劳”,正是Pinakes开掘的信息检索之路的最新进展。

上述“基因”能遗传至今,除了基本原理和应用机制的科学性实用性之外,亚历山大城图书馆举世无双的地位和影响也功不可没。庞大的馆藏由Pinakes组织起来,按学科分布在十多个大厅,如修辞、戏剧、诗歌、天文、数学等。缪斯殿的哲人们通过Pinakes使用藏书,开展研究,做出了伟大的学术成就和科学发明(参见拙文《心智的圣所》)。而后,大城图书馆第三任馆长厄拉多塞尼(Eratosthenes of Cyrene,约前276~195),在Pinakes基础上又编辑了“大书架分类目录”。随着托勒密王朝的希腊化进程和亚历山大城成为文化之都,Pinakes的影响遍及地中海世界,她的种种变体为各国图书馆使用,绵延整个中世纪,包括十世纪阿拉伯学者Ibn al-Nadim’s编制的“索引”(Al-Fihrist)。就连现代图书分类,如美国图书馆馆员梅尔维尔.杜威创立的“杜威十进制分类法”(1876),其背后仍是她的巨大的身影。不难想见,Pinakes的贡献在大城图书馆之外,还触动了社会的方方面面。限于篇幅,这里仅指出两点,略作分析。

Pinakes作为馆藏分类目录,图书馆的日用工具,对高度复杂的知识体系采取实用主义原则,化繁为简,中立地处理学科间的关系。卡氏注意到,馆藏知识的组织有其特殊的物质形态,即以卷轴为单位,线性排列。针对这一现实,Pinakes突破理论上的知识分类体系的束缚,将学科之间的多重网状关系简化为线性结构,以便有效地组织并检索馆藏。这种实用主义立场同当时学界的主流态度大相径庭,是十分大胆独特的举措。对哲学类的处理就是一例。哲学在古希腊文明知识体系中占据崇高地位,自公元前六世纪毕达哥拉斯时期起,哲学指导并规范着希腊知识界。在亚里士多德,所有学科都被看作哲学的延伸(费福尔,页156)。当时的学者,往往首先是哲学家,然后才是数学家、天文学家、地理学家等。Pinakes的学科分类虽然受亚里士多德的影响,却没有赋予哲学特殊或总括的地位,而是从文献组织检索的实际需要出发,把哲学同其他学科一起线性排列,平等对待。由此形成了一种实用主义传统,对后世各个领域的知识管理影响极大。

其次,Pinakes以处理大规模书写记录集成为己任,无意中提供给民主政治和学术争鸣一种全新的运作方式。公元前六世纪的雅典,僭主政治逐渐转向民主,公众讲演、面对面辩论是民主制度的一大特征,属口述传统。但这种城邦民主经常引发民众冲突,不易控制,甚至造成流血事件。Pinakes是书写传统的延伸,支持了另一种可能的民主形式和手段(麦克尼理,页8)。它把书写纪录组织起来,在大城图书馆中建起一座理性智慧的大厦,让各派学说政见平等地置身于书架,在井然有序的藏书中占有自己的位置,供读者与之“商讨”。就这样,民主在图书馆中展开辩论争鸣;这种学术民主有助于政治民主的实践和成熟,在一定程度上可以避免或拒绝暴力冲突,培育理性商谈的社会伦理。

正是这些丰富的实践经验,把Pinakes充满智慧的创造深深嵌入社会生活,成为今日人们的习以为常的制度。而Pinakes在她生机勃勃的后代谷歌百度们那里,继续着两千三百年前拉开序幕的史诗!

然而,谷歌百度们并非寻常的后代,而是Pinakes“基因”受数字网络技术刺激,突变后的一族,带着信息时代的强势DNA。新时代要求它们面对众多棘手的新问题:呈天文级数增长的信息量,知识的形式和承载物的复杂多变,全开放式的虚拟世界等等;所有这些都给真实世界的政治、经济、文化、学术和日常生活蒙上了一层迷雾,知识管理的未来一时还很难看清全貌。但有一点业已明朗,亚历山大城图书馆/Pinakes模式已经不能满足时代的需要,由她创造发展的制度和生活方式受到了严峻挑战。谷歌百度们顺势崛起,成绩斐然,俨然是时代宠儿。但是,它们在大获成功的同时,又给人们带来了前所未遇的全方位的困境。亚历山大城图书馆曾被尊为西方文明的心智的圣所,谷歌百度们会将世界引向何方呢?这是我们必须认真对待的问题。

 

二〇一〇年七月

 

布鲁姆(Rudolf Blum):《卡利马科斯》(Kallimachos: The Alexandrian Library and the Origins of Bibliography),H.W. Wellisch英译,威斯康新大学出版社,1991。

费福尔(Rudolf Pfeiffer):《古典时代学术史》(History of Classical Scholarship: From the Beginnings to the End of The Hellenistic Age),牛津大学出版社,1969。

麦克尼理(Ian F. McNeely with Lisa Wolverton):《重新发明知识:从亚力山大城到互联网》(Reinventing Knowledge: From Alexandria to the Internet), 诺登书局, 2008。

托马(Rosalind Thomas):《口述传统与古典时代雅典的书写记录》(Oral Tradition and Written Record in Classical Athens),剑桥大学出版社,1992。

相关阅读:

网友评论: