不再遺漏:建立搜尋引擎基礎的凱倫‧斯帕克‧瓊斯

自 1851 年起,《紐約時報》訃聞由白人男性主導。在「被遺漏者」(註1)(Overlooked)中,我們添上這些未被放入《紐時》訃聞中的,非凡人們的故事。2007 年逝世的「搜尋引擎之母」凱倫‧斯帕克‧瓊斯(Karen Sparck Jones)以自然語言處理,為現代搜尋引擎技術打下基礎;為工程界女性發聲;同時,也預示了矽谷如今面對的道德風波。遲到 12 年後,《紐約時報》以本文追悼這位當初遭忽略的卓越電腦科學家,與她一生的貢獻

當多數科學家試圖讓人們用數碼與電腦溝通,凱倫‧斯帕克‧瓊斯反其道而行,教導電腦們理解人類語言。

正因如此,斯帕克‧瓊斯的科技奠定了 Google 等搜尋引擎的基礎。她是一位自學工程師,專注於自然語言處理,也是該領域的女性倡議者;幾十年前,她也預示了矽谷如今面臨的道德問題,她曾警告,由不理解其社會影響力的電腦科學家所領導的科技,存在著風險。

「直到五年、十年前,她在做的許多事看來都是瘋狂的無稽之談,而現在,我們視其為理所當然。」她的老友,任職於英國電腦學會(British Computer Society)的約翰‧泰特(John Tait)說。

她 1972 年發表於《文獻資料工作雜誌》(Journal of Documentation)上的論文深具影響力,奠定了現代搜尋引擎的基礎。論文中,她結合統計學與語言學——一個當時是相當不尋常的做法——以建立電腦詮釋單詞關係原則的公式。

到了 2007 年,斯帕克‧瓊斯說過,「幾乎每個網頁引擎都使用那些原則。」

「使用任一種統計資訊的檢索目錄詞賦值權重(index-term weighting),都將使用我 1972 年發表的加權功能,」她在一段英國電腦學會(British Computer Society)的訪問中說。

凱倫‧伊妲‧伯斯‧斯帕克‧瓊斯(Karen Ida Boalth Sparck Jones)出生於 1935 年 8 月 26 日,英國紡織業小鎮哈德斯菲爾德。她的父母是化學系講師艾爾菲‧歐文‧瓊斯(Alfred Owen Jones)和伊妲‧斯帕克(Ida Sparck),後者在二戰期間流亡倫敦,為挪威政府工作。

她在劍橋大學先後修習歷史與哲學(當時稱為道德科學系),就學期間結識劍橋語言研究小組(Cambridge Language Research Unit)負責人瑪格麗特‧瑪斯特曼(Margaret Masterman),並受其影響,進入這個領域。斯帕克‧瓊斯後來曾形容她為「一個非常奇怪且有趣的女人」,瑪斯特曼曾在工作上使用自己的婚前姓氏,這在當時是相當不尋常的。

斯帕克‧瓊斯也遵循此道,1958 年她嫁給電腦科學家羅傑‧尼達姆(Roger Needham)時,保留了自己的姓氏,並說:「這保留了你自身永久的存在。」

斯帕克‧瓊斯開始為瑪斯特曼工作。她想要弄清楚該如何為電腦編寫程式,以理解可能有許多含義的單詞,並著手為大量同義詞庫編碼。

「自然語言中的所有單詞都是武斷的;它們有許多意思,」她在英國工程技術學會(IEEE)歷史中心的一段口述歷史訪談中説。「你要如何找出它們在任一特定用法下的意思?」

1964 年,斯帕克‧瓊斯出版《同義詞與語義學分類》(Synonymy and Semantic Classification,暫譯),如今本書已被視為自然言語言處理(註2)領域中的基礎文獻。

1972 年,她提出逆向檔案頻率(inverse document frequency,idf)的概念,以文件中單詞出現的次數決定該詞彙的重要性;同樣地,這也是現代搜尋引擎的一項基礎。

1980 年代,她開始研究初期的語音辨識系統。

多數的早晨及下午,斯帕克‧瓊斯與丈夫(軟體安全領域內的先驅),在他們劍橋公寓的茶間裡論辯理論。

他們在柯頓的家就在劍橋西邊,裡面堆滿了書籍、藝術品和蒐藏物件,比如一塊有趣的漂流木,或是一個維多利亞時代的磨刀石。他們在同村莊裡的第二幢房子,則是額外的儲物空間,用來放置他們的書籍,也是她的藝術家工作室。她的其中一件作品曾被掛在微軟研究實驗室。

航海是斯帕克‧瓊斯和尼達姆的另一項熱情所在。他們修復了一艘 1872 年的復古帆船「考斯的芬尼」(Fanny of Cowes),並與其他古老小船們沿著英國東岸競賽。他們決定不生孩子。

「他們希望擁有充滿智識的生活,」她的好友,電腦科學家安德魯‧赫爾伯特(Andrew Herbert)說。「顯然,他們一生都深愛對方。」

斯帕克‧瓊斯擁有渾厚嗓音與淘氣的幽默感。工作時,她經常穿著簡單制服:藍牛仔褲、紅毛衣、白襯衫。她也會配戴一只由石頭和部分馬蹄製成的自製胸針。當她不得不騎單車去參加正式晚宴時(這當時在劍橋經常發生),她會用衣夾把洋裝扣在單車車把上。

1982 年,英國政府任命斯帕克‧瓊斯參與阿爾維計畫(Alvey Program),旨在促進國內更多電腦科學研究。1993 年,她與茱莉亞‧加利爾斯(Julia Galliers)一同編寫《評量自然語言處理系統》(Evaluating Natural Language Processing Systems,暫譯),成為自然語言處理中影響深遠的教科用書。

1994 年,她成為國際計算語言學協會(Association for Computational Linguistics)會長,該協會是計算語言學領域的國際型專業組織。

1999 年,她就任劍橋大學的全職教授,而得到這個職位所費時間之長,曾令她備感困擾。在此之前的許多年裡,她與劍橋大學一直持有合約關係,那是一種非終生教職且地位較低的學術聘用狀態,被稱為「靠軟錢過活」。

「在很多方面來講,劍橋大學對女性並不友善,」她對這個遲來的聘約表示道。

2004 年,她贏得國際計算語言學協會終身成就獎;2007 年獲得英國電腦學會洛夫萊斯勳章(British Computer Society Lovelace Medal)與亞倫紐偉獎(Allen Newell Award)。

斯帕克‧瓊斯於 2007 年 4 月 4 日因癌症去世,當年 71 歲。《紐時》當時並未被刊登她的訃聞,但她 2003 年逝世的丈夫卻有。

如今,研究者們仍在引用她的公式。她寫就的想法,在人工智慧研究愈漸普遍的今日,被付諸實行。

「這指出她有多超前於她的時代,她的研究是多麽重要,而在最初的二十年裡,它又被低估地多嚴重。」科羅拉多大學(University of Colorado)電腦科學暨語言學系教授瑪莎‧帕爾默(Martha Palmer)說。

斯帕克‧瓊斯也指導了一世代的研究者,有男有女。她曾提出一個口號:「電腦太過重要,不能只讓男人來做。」

斯帕克‧瓊斯也在另一方面超前於她的時代。在矽谷開始檢討其道德問題的數十年前,斯帕克‧瓊斯便曾告誡工程師們,要思考他們的工作對社會產生的影響。

「社會脈絡與程式編碼間有種互動關係,」她說。「不需要在每次把手指放上鍵盤時,都進行一次基本哲學討論,但當電腦運算深入到人們生活之中,你就會需要思考這些事情了。」


註1:「被遺漏者」為《紐時》自去年三月開始執行的企劃,旨在追溯那些成就卓越,卻未在《紐時》訃聞中曾得到應有曝光度的女性與有色人種的故事。

註2:自然語言處理(Natural Language Processing,NLP),即讓電腦擁有理解、處理與應用人類語言之能力,包含文字、語音上的認知、理解與生成。

Previous ArticleNext Article