2023年8月的一個陽光明媚的日子,在印度班加羅爾甘地·巴萬博物館二樓的一個房間里,工人們坐在五臺巨大的桌面掃描儀前,擺好書,并用腳踏板翻頁。
這座博物館是卡納塔克邦最大的甘地哲學參考圖書館。在接下來的一年里,各種各樣的書籍,包括圣雄甘地的作品集,他的自傳《我對真理的實驗》的卡納達語譯本,以及其他稀有作品,都將被數(shù)字化。它們的元數(shù)據(jù)將被記錄并加入互聯(lián)網(wǎng)檔案館(Internet Archive)的“知識仆人”(SoK,Servants of Knowledge)收藏項目之中。
這一數(shù)字化舉措只是“知識仆人”的最新舉措,該項目發(fā)起于四年前,旨在保護難以找到的資源。自那以后,它已經(jīng)擴大了范圍,包括與印度各地的各種圖書館和檔案館建立的伙伴關(guān)系。
“知識仆人”數(shù)字收藏項目旨在彌補印度圖書館資源的稀缺性
如今,“知識仆人”的收藏記錄成為了一個可搜索的數(shù)字圖書館,收錄了來自印度和關(guān)于印度的超過15種語言的書籍、演講、雜志、報紙、棕櫚葉手稿、音頻和電影。
該收藏項目是一個真正開放的數(shù)字圖書館,包含科學、文學、法律、政治、歷史、宗教、音樂和民間傳說等許多主題的公共領(lǐng)域和非版權(quán)作品。所有內(nèi)容都是開放訪問的、可搜索的、可下載的,并可供視障人士使用文本轉(zhuǎn)語音工具訪問。
志愿者和工作人員正在繼續(xù)擴大收集范圍,每月在班加羅爾各地掃描約140萬頁資料,更多的合作正在推進當中。
這些藏品是為了彌補印度圖書館資源的短缺。印度政府為促進該國的公共圖書館計劃成立了Raja Rammohun Roy圖書館基金會,據(jù)該基金會稱,在這個擁有14億人口的國家,約有5萬個公共資助圖書館。
根據(jù)該基金會2018年的一份報告,鄉(xiāng)村和部落圖書館可能只有幾千本藏書。相比之下,每個州的中央圖書館平均有7.7萬本書,每個地區(qū)圖書館平均有2.4萬本書。其中一些圖書館的藏書毀于火災(zāi),還有許多書因管理疏忽而損毀或丟失。
此外,大多數(shù)公共圖書館并不是免費向公眾開放的。班加羅爾印度大學國家法學院研究知識產(chǎn)權(quán)法的副教授阿魯爾·喬治·斯卡利亞說:“想進入我們的公共圖書館非常困難,過了一段時間之后,人們就不再想進去了。我們許多公共資助的教育機構(gòu)也是如此。”他說,解放這些圖書館的最佳途徑之一是將藏書數(shù)字化。
技術(shù)專家奧姆希瓦普拉卡什·H·L在用印度西南部語言卡納達語撰寫維基百科文章時,他意識到了這些資源的嚴重匱乏。
2019年左右,他聽說美國慈善機構(gòu)“公共資源”的負責人卡爾·馬拉穆德已經(jīng)在進行類似的工作,將甘地關(guān)于印度自治的Hind Swaraj系列作品和印度政府的作品等書籍歸檔到公共領(lǐng)域。奧姆希瓦普拉卡什說:“我也知道他過去經(jīng)常從二手書店買很多這樣的書,然后把它們帶到美國進行數(shù)字化工作?!?/p>
“公共資源”組織一直在與班加羅爾的印度科學院合作,使用互聯(lián)網(wǎng)檔案館提供的掃描儀將其書籍數(shù)字化,但這一努力已經(jīng)逐漸減少。奧姆希瓦普拉卡什提議讓社區(qū)成員提供幫助。
在周末,這些來自當?shù)厣鐓^(qū)的志愿者就開始掃描奧姆希瓦普拉卡什和馬拉穆德買來的一些書。奧姆希瓦普拉卡什說:“卡爾真正理解社區(qū)合作的理念,我們所需要的當?shù)卣Z言技術(shù)的理念,以及我們正在創(chuàng)造的影響。”
掃描儀使用一個V形支架來放置書籍,并使用兩個單反相機以高分辨率拍攝頁面。該設(shè)備的設(shè)計基于互聯(lián)網(wǎng)檔案館的掃描儀,但由奧姆希瓦普拉卡什重新設(shè)計,可以在印度以較低的成本制造。每個工作人員每小時可以掃描大約800頁。
流程中更關(guān)鍵的部分發(fā)生在掃描后:志愿者要確保使用了準確的元數(shù)據(jù),使掃描結(jié)果可以在互聯(lián)網(wǎng)檔案中找到,還要引入光學字符識別,經(jīng)過微調(diào),該技術(shù)可以更好地適用于一系列印度語文本,使文本可以通過文本轉(zhuǎn)語音應(yīng)用進行搜索和訪問。
“公共資源”機構(gòu)為“知識仆人”項目提供資金,奧姆希瓦普拉在工作人員和志愿者的幫助下管理該項目的運營。合作者通過社交媒體和口口相傳的方式普及該項目。
一位名叫查亞·阿查里亞的社區(qū)成員兼卡納達語教師向奧姆希瓦普拉卡什提供了她祖父作品的剪報。她的祖父是著名記者和作家帕維姆·阿查里亞,他寫了許多關(guān)于科學和社會問題的文章以及諷刺文章。令她沒想到的是,她在“知識仆人”已有的收藏資料中發(fā)現(xiàn)了更多其祖父的文章。
她說:“僅僅通過搜索他的名字,我就從檔案中得到了很多的文章?!彪S后,她開始收集阿查里亞在1952年至1975 年初編輯的著名卡納達月刊Kasturi的副本,并將其交給奧姆希瓦普拉卡什進行數(shù)字化。
該雜志的舊版包含了受歡迎的卡納達語作家的罕見作品和譯本,如古拉瓦迪·文卡塔·拉奧的《Indirabai》,它被認為是以卡納達語寫成的第一部現(xiàn)代小說,以及埃德加·艾倫·坡著名短篇小說《金甲蟲》的卡納達文譯本。
馬拉穆德說,這都是在互聯(lián)網(wǎng)上打造公共圖書館愿景的一部分,即“自下而上、草根化的東西。這是一群人在互相教學,我們只想繼續(xù)掃描并向人們提供(這些材料)。這不是一個宏偉的目標或單一的目標”。
“這就是我們的謀生之道?!彼f,“我們已經(jīng)做了很多年了,而且我們還將繼續(xù)下去?!?/p>