侵華日軍南京大屠殺遇難同胞紀念館首份留言簿大數據報告面世。
在侵華日軍南京大屠殺遇難同胞紀念館的留言區域,有一堵城磚砌成的高墻,墻上銘刻著部分參觀者的留言。在留言區,人們可以在留言簿上寫下自己的感受。近3年內,這里留下了約30萬條來自不同國家不同民族的參觀者的留言。多年來,紀念館的留言簿歷經不同版本,在去年第五個國家公祭日后更新成目前的格式:正反兩面,中英文對照。參觀者可以填寫自己的姓名、年齡、職業、來自哪里等信息。每周會有大學生志愿者對部分留言進行錄入,精選的留言通過網絡發布,參觀者也可以現場翻閱別人的留言。
字見人心。這30萬條留言無論是從信息量還是情感度來講,都是一筆深埋的文獻財富。新華報業傳媒集團記者在了解到之前還未有過專門機構對這些留言進行全面系統的建庫、歸檔、統計分析,也沒有新聞機構對這些珍貴留言進行數據新聞的挖掘報道之后,深感對留言資料的大數據挖掘是一個非常有意義的歷史任務,于是在第六個南京大屠殺死難者國家公祭日到來之際,開始了這份工作。
一把尺一臺秤,量出留言簿物理維度
紀念館收藏的留言簿全部堆放在客服部門的一個倉庫內,可以從擺放順序、紙張顏色等方面大致分清時間順序。另外,舊版留言頁一面紙上可以填寫兩個留言,信息少、空間小,近一年來的留言都已經換了新版,從格式上也可以明顯區分留言的時間。記者帶了卷尺和電子秤,分堆疊對近一年來的留言頁高度、重量進行測量。這些留言頁的高度加在一起超過8米,每1厘米高度的紙疊約包含110張留言頁。有的留言頁正反面都有填寫,有的則只填了一面,減去空白的數量,又經過與工作人員核對后,得到近一年156150條留言的數據。
不僅留言的內容沉甸甸,紙張本身也很有分量。記者分批將這些留言頁在電子秤上過磅,再取平均值,計算出來堆成1米高的留言頁重量約為99公斤,一年的留言頁總重量達到792公斤。
14個高頻詞,管窺萬千心愿
面對海量留言頁,如何統計,又考量哪些信息呢?記者經過反復思考,選擇了留言中高頻詞和留言者年齡進行計數,對于外國參觀者的留言,以及圖畫和詩歌等形式的留言單獨計算。記者用了近兩周時間手動對留言內容進行統計,共挑選了1100余頁約2000條有效留言的內容進行錄入。記者先將留言簿中的高頻詞匯摘錄整理,選擇了“歷史”“勿忘”“和平”“銘記”“祖國”“中國”“中華”等14個詞語。為了統計樣本的科學性,記者選擇隨機抽取多個月份不同時段內的留言進行統計。得到數據后,通過計算得到了高頻詞出現的頻率、各個年齡段參觀者的比例。
統計時,記者也在不斷調整方案,比如常有一疊留言全部來自某地同一年級的中學生,可以推斷這可能是由學校組織參觀時學生們寫下的留言。由于這樣的統一行動會對樣本的隨機性產生影響,我們在統計時對這批留言進行了單獨的歸類。另外有的留言信息不完整,只寫了留言,缺失了年齡等信息,樣本總數也要進行調整。整理內容雖然繁瑣但并不枯燥,每一份留言都能看出用心。軍人常寫下保衛祖國的豪情,教師則會流露心系教育下一代的己任,學生們常寫“少年強則國強”。
由于數量太大,這份留言數據尚未被完整統計,未來新華報業傳媒集團將與侵華日軍南京大屠殺遇難同胞紀念館合作,將這些留言全部錄入形成數據庫,讓留言簿中的更多信息,以更多方式呈現。
最多一天寫了1000張留言,一年寫光1400支筆芯
紀念館的工作人員每周二至周五需要更換留言頁近200張,周末數量更多些,每天更換300頁左右,一些人流量高峰的節假日,每天需要更換700頁。今年國慶長假期間,10月4日用了1000張留言頁,創下今年以來一天當中更換留言頁數的紀錄。從去年公祭日至今,近一年內留言量約為156150條,平均每小時會留下約60條。
工作人員每天2次更換留言頁,上午八點半和下午兩點半,開館后有一系列的工作:更換紙張、簽字筆和筆芯。留言區有8支簽字筆,兩天就要更換一次筆芯,一個月下來一般需要用掉120支筆芯,一年消耗筆芯1400多支。頻繁的使用下,簽字筆也很容易損壞,基本上每周都需要將壞的更換下來,一個月會更換30支簽字筆。遇到大客流,留言頁一天要更換3次,簽字筆也需要每天更換。
每10萬條留言中,“和平”約出現2萬多次
“歷史”“勿忘”“和平”是留言內容中出現頻率最高的詞語。記者用統計學抽樣分析,每10萬條留言中“歷史”會出現44762次,“勿忘”出現26508次,“和平”出現20317次。高頻詞依次排序,還有“銘記”“祖國”“中國”“中華”和“不忘”。10萬條留言中,“未來”出現4762次,“振興”“希望”和“珍惜”分別出現6825、6190和5238次。這些詞語的頻率,匯聚了所有參觀者共同的感悟和心愿。
每10萬條留言中,有476條是用圖畫表達的,其中多數來自不滿9歲的孩子,畫上出現最多的是飄揚的五星紅旗。一位意大利設計師洛倫佐手繪了“愛與和平”標志,占滿整張留言頁,并將幾個英文單詞“LOVE”“PEACE”“CHINA”設計在其中,這也是世界上最為廣泛流傳的反戰標志。每10萬條留言中,約有58條是以詩、詞的形式出現。一位37歲的老師寫下一首《永遇樂·金陵憑吊》,“英靈枯骨墓,三十萬人,四十二天,血染長空江渚。嘆今朝,山河一新,何懼鬼蜮!”15歲的景子桐寫下了一串“密碼”,熟悉歷史的她將中國歷史的重要年份一一寫下,最末是“1937-2019”。
最年長的留言者90歲,超八成留言來自“90后”
10萬條留言中約有1500張來自外國友人的留言,他們來自60多個國家和地區。來自美國的Jake Milroy寫道:“可以原諒,但不可以忘卻!”偉韜來自愛沙尼亞,他的大學畢業論文正是關于侵華日軍南京大屠殺的內容,他用中文寫下“希望世界和平,沒有戰爭”。來自日本、美國、英國的外國參觀者留言最多。
在留言簿上留下年紀的參觀者中,最小的5歲,最大的90歲。7歲的王君瑤用拼音寫下“我想讓中國變得更強大!”來自寧波的王以今年90歲,是留言簿上年齡最大的人。“出生在那個黑暗年代,兒童到青年時代飽受侵略災難,這苦難日子永不忘。永望世界和平!”他的字跡略有些顫抖。在記者的統計中,18歲和19歲的留言者最多,分別有9662人和10561人,84%的留言來自“90后”。
受人力、時間所限,我們這次只統計了一年以來的留言大數據。未來新華報業傳媒集團將投入人力物力,用最新的大數據技術對侵華日軍南京大屠殺遇難同胞紀念館的全部留言進行建庫歸檔,讓這些留言中凝結出的“和平”的分量永存歷史。
(原標題《萬千留言,留下萬千期盼——來自侵華日軍南京大屠殺遇難同胞紀念館的大數據報告》)