国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

常見錯字特征量化分析軟件的研究與實現(xiàn)

2013-04-24 15:24李震
中國刑警學(xué)院學(xué)報 2013年3期
關(guān)鍵詞:數(shù)據(jù)錄入字庫錯字

李震

(中國刑警學(xué)院 遼寧 沈陽 110035)

常見錯字特征量化分析軟件的研究與實現(xiàn)

李震

(中國刑警學(xué)院 遼寧 沈陽 110035)

通過計算機對錯別字出現(xiàn)率及其影響因素進行研究,對常見錯字出現(xiàn)率及其影響因素進行數(shù)據(jù)統(tǒng)計,為錯字特征的實際應(yīng)用及其特征價值的評斷提供相對客觀的依據(jù),并在筆跡檢驗與鑒定工作中,方便鑒定人員能夠更好地對錯字特征進行把握。同時也為錯字出現(xiàn)率的統(tǒng)計研究及錯字特征價值評斷的深入研究探索科學(xué)的研究方法。

筆跡 筆跡檢驗 錯別字特征

錯別字特征是筆跡檢驗中的一類重要特征,由于它具有很強的特殊性和穩(wěn)定性,在筆跡檢驗中擁有重要的地位。在筆跡檢驗中,一般把錯字和別字歸為錯別字特征,主要用于對書寫人的同一認定。目前在文件檢驗領(lǐng)域,大多都是對如何正確使用錯別字特征進行定性的討論,并未見對錯別字特征進行系統(tǒng)的量化研究,對錯別字特征價值的評估也大都來自于檢驗鑒定人員的經(jīng)驗,主觀性極強,據(jù)此做出的鑒定結(jié)論也缺乏說服力。通過計算機對錯別字出現(xiàn)率及其影響因素進行研究,可以使我們更好地把握錯別字特征,準(zhǔn)確地評斷其特征價值。在分析統(tǒng)計錯別字出現(xiàn)率的基礎(chǔ)上,判斷其在筆跡檢驗中應(yīng)用價值的高低,將對筆跡檢驗工作起重要的指導(dǎo)意義。同時在一定條件下,通過人機結(jié)合,還可以通過某些錯字所表現(xiàn)出來的特點及規(guī)律,為判斷書寫人的個人情況提供參考,從而為偵查破案提供線索和依據(jù)。

1 錯別字特征量化分析的理論研究

1.1 錯別字的含義及產(chǎn)生原因

通常所說的錯別字包括錯字和別字。錯字是指書寫人對字的正確寫法和結(jié)構(gòu)不了解或掌握不夠準(zhǔn)確而寫錯的字。錯字是文字系統(tǒng)中根本不存在的字,主要表現(xiàn)為把筆畫寫錯,或是增減筆畫,或是排錯偏旁的位置等。別字與錯字不同,是指該寫甲字時寫成了乙字。

漢字筆畫結(jié)構(gòu)復(fù)雜,漢字中筆畫繁多的為數(shù)不少,這些字在書寫時稍有馬虎,或記得不準(zhǔn)確,很容易出現(xiàn)多筆少畫的現(xiàn)象以及錯寫為其他字。漢字形體結(jié)構(gòu)相似,漢字是由點、橫、豎、撇、捺、折等幾種筆畫結(jié)構(gòu)組成。由于筆畫形式不多,在組字結(jié)構(gòu)上勢必會出現(xiàn)許多相似的地方,加之書寫技能的遷移,導(dǎo)致人們在學(xué)習(xí)和使用漢字過程中,很容易把字的某一部分記混。漢字屬于表義體系的文字,漢字的字形和字義有著非常密切的聯(lián)系。有許多漢字,只有了解它們當(dāng)初的本義,才能加深印象。僅僅記住字形,只能得到表面的、浮淺的印象,在書寫時難免要出現(xiàn)錯別字。

1.2 確定常見錯別字

易錯樣品字的選取是理論研究的重要環(huán)節(jié)。樣品字的選取經(jīng)歷了初選和確定兩個階段。樣品字的初選參考《錯別字辨析手冊》(杜維東著)、《常見錯字的分類及其更正的理據(jù)分析》(彭志雄著)及平時案件鑒定中常遇到的錯別字,初步選擇了157個易錯樣品字,并設(shè)計了錯字調(diào)查表確定樣品字的組合,即把它們分別編入常見的詞組,在詞組中省略樣品字,下畫橫線,在橫線前的括號內(nèi)用拼音把樣品字標(biāo)注出來,以保證書寫人正常填寫樣品字。在不同年齡段、不同性別、不同文化程度、不同職業(yè)以及不同地區(qū)范圍內(nèi)選擇500名調(diào)查對象,發(fā)放并回收《漢字調(diào)查表》。對有效的456份調(diào)查表中的157個樣品字的出錯率進行了人工統(tǒng)計,按錯字出現(xiàn)率從高到低排列,對157個字的錯字出現(xiàn)情況進行研究,剔除其中空字現(xiàn)象嚴重和部分未出現(xiàn)錯寫的字,同時又增加個別實際案件中易出現(xiàn)的錯字后,最終形成了143個字的樣品字調(diào)查表。

2 錯別字庫的建立

實現(xiàn)計算機對錯別字出現(xiàn)率的量化分析,首先要建立計算機可識別的錯別字庫,建立計算機能識別的錯別字庫有兩種方法,一是利用造字程序,造出所發(fā)現(xiàn)的每個錯字并保存在計算機的字庫中;二是將各種錯字手寫出來,通過掃描圖像存儲在數(shù)據(jù)庫系統(tǒng)。經(jīng)分析研究,第一種方法造字過程本身比較繁瑣,要使用查詢軟件其他計算機也必須先安裝此字庫,同時造字程序也會影響本軟件的推廣和使用。最終決定采用掃描手寫文字圖片的形式建立相應(yīng)的數(shù)據(jù)庫。

2.1 錯別字庫的來源

為了保證錯字庫的豐富性和有效性,對收集的1400余份調(diào)查表和前期收集的400余份調(diào)查表逐份逐字進行分析,將發(fā)現(xiàn)的每個字的各種錯寫、別字、空字等信息記錄在《143個字情況一覽》表中。然后將每個人的記錄表匯總,形成了錯字庫內(nèi)容的原始記錄。

2.2 錯別字庫的制作

經(jīng)過計算機技術(shù)人員的測試,確定書寫樣品字的規(guī)格為15mm×15mm。首先利用計算機制作并打印出相應(yīng)規(guī)格的方格紙;再由專人在方格紙上用楷書書寫經(jīng)過匯總的字庫內(nèi)容(即錯字原始記錄表中的所有錯字);然后利用計算機photoshop軟件對寫完的字樣進行掃描,調(diào)整色階后保存;最后,利用photoshop軟件將已保存的字樣按單字進行切分,并保存在按不同樣品字形成的相應(yīng)字庫中(見圖1)。

圖1 “步”的錯寫字庫

2.3 錯字庫中錯字的編碼

要實現(xiàn)錯字庫中各種信息的綜合查詢,首先必須按照一定的規(guī)則建立關(guān)鍵字,由此對字庫中的每個錯寫圖片進行編碼,每個錯字采用8位編碼,1-3位代表所研究的143個字。數(shù)值與調(diào)查表中的順序一致,不足三位時在前方用0補齊,如第一個字“步”編為001,第21個字“慶”編為021;4-5位代表該字按偏旁劃分,出現(xiàn)錯別字的類別。正字、空白和其他為00。在本錯別字字庫中先以與正字的相似度劃分,然后以不同偏旁錯別字多少劃分,分為01、02……,目的是便于數(shù)據(jù)錄入和查詢,如“隙”出現(xiàn)的27個錯字中,“耳刀旁出現(xiàn)14個,最多,此類錯別字編為01”“絞絲旁出現(xiàn)6個,第二多,則此類錯別字編為02”,其他依此類推;第6位代表按照錯字原因劃分,錯字類型。正字、空白和其他為0,多筆畫(只多一筆)為1,少筆畫(只少一筆)為2,結(jié)構(gòu)錯誤為3,受上下字影響為4,其他類型錯字為5,別字為6,“空白”(未填)為7;7-8位代表各類別錯字的具體內(nèi)容。正字為00,空白為01,其他為02按錯別字筆畫數(shù)和相似度依次編為01、02,并據(jù)此對字庫中所有的信息進行了編碼。

3 分析軟件的開發(fā)與設(shè)計

本軟件共分為系統(tǒng)管理模塊、數(shù)據(jù)錄入模塊、數(shù)據(jù)查詢模塊和本庫信息模塊四部分。

系統(tǒng)管理模塊將本軟件系統(tǒng)劃分為系統(tǒng)管理、查詢使用、數(shù)據(jù)錄入三種權(quán)限。其中系統(tǒng)管理權(quán)限是使系統(tǒng)管理員對系統(tǒng)進行綜合維護和管理,該權(quán)限可以使用本軟件系統(tǒng)中的所有功能,即數(shù)據(jù)錄入功能、數(shù)據(jù)查詢功能、數(shù)據(jù)管理功能和人員管理功能。查詢使用權(quán)限授予最終用戶使用,可以通過本系統(tǒng)對數(shù)據(jù)庫中的數(shù)據(jù)進行查詢和分析,僅具有數(shù)據(jù)查詢功能和部分人員管理功能(僅能對用戶本身的用戶名和密碼進行修改)。數(shù)據(jù)錄入權(quán)限是將漢字調(diào)查表中的錯字信息錄入后臺數(shù)據(jù)庫的用戶使用。

數(shù)據(jù)錄入模塊是由錯別字錄入和調(diào)查表錄入兩個子模塊構(gòu)成。其中錯別字錄入子模塊具有兩部分功能,一是由系統(tǒng)管理員將漢字調(diào)查表中的143個易錯字和利用易錯字構(gòu)成的詞組添加到數(shù)據(jù)庫中,另外一個功能是系統(tǒng)管理員對每一個易錯字的各種錯寫、正確寫法、空白添加至數(shù)據(jù)庫中,每個易錯字的各種錯寫主要來源于漢字調(diào)查表中可能出現(xiàn)的各種錯寫和辦案實踐中所發(fā)現(xiàn)的錯寫。系統(tǒng)管理員錄入完畢后,調(diào)查表錄入子模塊就會將原來紙質(zhì)調(diào)查表中所有詞組顯示在界面上,其中填空部分是由每個易錯字的所有錯寫、空白和正確寫法綁定在下拉框組成。漢字調(diào)查表錄入時系統(tǒng)默認的字是正字。用戶錄入時,只需對照漢字調(diào)查表錄入出現(xiàn)錯寫的易錯字即可,錄入速度快,可維護性極強。

數(shù)據(jù)查詢模塊是由易錯字和錯別字查詢、條件和分組查詢以及高級查詢?nèi)齻€子模塊構(gòu)成。其中易錯字和錯別字查詢子模塊可以查詢數(shù)據(jù)庫中的易錯字及各種錯寫查詢、每個易錯字的總出現(xiàn)率和每個易錯字中各個錯寫的出現(xiàn)率;條件和分組查詢子模塊是由易錯字條件查詢、錯寫條件查詢、分組查詢和高級分組查詢四部分構(gòu)成。易錯字條件查詢可以查詢數(shù)據(jù)庫中滿足各種特定條件的人群且易錯字總出現(xiàn)率在特定范圍的具體易錯字。錯寫條件查詢用來查詢數(shù)據(jù)庫中滿足各種特定條件的人群且各種錯寫總出現(xiàn)率在特定范圍的具體易錯字錯寫情況。分組查詢的功能是按數(shù)據(jù)庫中自然人的各種屬性(年齡段、性別、職業(yè)、文化程度、書法愛好)查詢寫錯別字的比例。高級分組查詢可以按數(shù)據(jù)庫中自然人的各種屬性(年齡段、性別、職業(yè)、文化程度、書法愛好)對每一易錯字寫錯別字的比例;高級查詢子模塊是由某易錯字出現(xiàn)率查詢、多個易錯字錯寫人群查詢、錯字種類查詢和按種類查詢易錯字錯寫情況四部分構(gòu)成。某易錯字出現(xiàn)率查詢可以查詢數(shù)據(jù)庫中滿足各種特定條件的人群中每個易錯字各種錯寫的出現(xiàn)率。多個易錯字錯寫人群查詢用來查詢數(shù)據(jù)庫同時具備多種易錯字錯寫情況的人群自然情況。錯字種類查詢的功能是查詢數(shù)據(jù)庫中每個易錯字各種錯誤類型的錯寫情況。按種類查詢易錯字錯寫情況是通過輸入音序查詢易錯字再查詢選中易錯字的各種錯誤類型的錯寫。

本庫信息模塊是由人員信息和易錯字信息兩個子模塊構(gòu)成。其中人員信息子模塊主要反映數(shù)據(jù)庫中所包含所有人的自然情況(年齡段、性別、職業(yè)、文化程度、書法愛好)。易錯字信息子模塊主要反映數(shù)據(jù)庫中所包含所有易錯字各種易錯類型的數(shù)據(jù)統(tǒng)計。

4 數(shù)據(jù)錄入與查詢結(jié)果分析

系統(tǒng)后臺數(shù)據(jù)庫采用SQL Server數(shù)據(jù)庫服務(wù)器,可以有效利用局域網(wǎng)同時滿足多人進行實時數(shù)據(jù)錄入,將1400余份調(diào)查表中的全部信息逐一錄入系統(tǒng)數(shù)據(jù)庫中,節(jié)約大量數(shù)據(jù)錄入時間,提高數(shù)據(jù)錄入的準(zhǔn)確性,也為本軟件系統(tǒng)后期大量數(shù)據(jù)錄入工作積累寶貴經(jīng)驗。啟動軟件,進入登陸界面,輸入錄入權(quán)限的用戶名和密碼,進入軟件界面,點擊“數(shù)據(jù)錄入”下的“漢字調(diào)查表錄入”進入調(diào)查表錄入界面,界面結(jié)構(gòu)友好,完全按照漢字調(diào)查表設(shè)計,用戶只需選取易錯字即可,默認為正字,完成漢字調(diào)查表的數(shù)據(jù)錄入工作(見圖2)。

圖2 漢字調(diào)查表錄入界面

數(shù)據(jù)錄入完畢,編制的143個易錯字查詢分析軟件實現(xiàn)了143個易錯字出現(xiàn)率的量化查詢。通過本軟件可以實現(xiàn)多種查詢功能,可以查詢143個易錯字在錄入的數(shù)據(jù)庫中的出錯率并按照降序或升序排列及每個易錯字出現(xiàn)各種錯寫的出錯率(見表1,表2),也可以結(jié)合一份筆跡材料中出現(xiàn)的若干個錯字,分析經(jīng)查詢出現(xiàn)這些錯字的人是否具有共同特點等。

表1 易錯字出錯率情況表(前10字)

表2 “步”字各種錯寫的出錯率

5 結(jié)論

開發(fā)143個易錯字查詢分析軟件,實現(xiàn)了143個易錯字出現(xiàn)率的量化查詢。通過該軟件的查詢功能可以分析各類人群的自然情況、常見錯寫的出錯率等,針對筆跡中錯別字的研究思路和方法同樣適用于其他各類筆跡特征,也為各類筆跡特征的量化分析系統(tǒng)的研制奠定良好的基礎(chǔ)。

1.賈玉文,鄒明理.中國刑事科學(xué)技術(shù)大全文件檢驗[M].北京:中國公安大學(xué)出版社,2002

2.賈玉文.筆跡檢驗[M].北京:警官教育出版社,1999

3.Christian Nagel,Bill Evjen,Jay Glynn,等.C#高級編程[M].第七版.北京:清華大學(xué)出版社,2010

4.王小科,王軍作,等.C#開發(fā)實戰(zhàn)1200例[M].北京:清華大學(xué)出版社,2011

猜你喜歡
數(shù)據(jù)錄入字庫錯字
基于SPSS軟件在市場調(diào)研中的數(shù)據(jù)錄入方法
面向海外數(shù)據(jù)庫的一種通用數(shù)據(jù)錄入方法的研究
No.2 喜茶聯(lián)合漢儀字庫推出微型書和書簽
易錯字 來提醒
錯字在身邊
60秒找錯字
60秒找錯字
論計算機字庫單字的著作權(quán)保護
——以方正訴寶潔案為例
基于SPSS軟件在市場調(diào)研中的數(shù)據(jù)錄入方法
老家的惜字庫
天气| 卓资县| 永川市| 遵义市| 昭通市| 清丰县| 高密市| 万安县| 石首市| 义乌市| 青铜峡市| 恩施市| 伊金霍洛旗| 广水市| 塔城市| 兴安盟| 桂林市| 巴楚县| 牡丹江市| 镇平县| 都匀市| 嘉峪关市| 安平县| 依安县| 友谊县| 南和县| 蒙自县| 张掖市| 泾川县| 汨罗市| 石楼县| 电白县| 沙河市| 色达县| 五台县| 扶沟县| 巴楚县| 邳州市| 泸溪县| 饶平县| 江北区|