国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)寫作,大數(shù)據(jù)讓你無法隱身

2018-04-11 10:04姚美家
大科技·百科新說 2018年3期
關(guān)鍵詞:中本語言學(xué)家筆觸

姚美家

不管我們寫任何東西,都必定透露大量關(guān)于我們自己的個(gè)人信息,無論是你在微信發(fā)了一條朋友圈,或者是在網(wǎng)絡(luò)新聞下面發(fā)表匿名評(píng)論。美國語言學(xué)家們向我們揭示了我們的“數(shù)字指紋”是怎樣出賣我們的,同時(shí),也教給我們一些隱藏自己的小竅門。

“中本聰”之謎

比特幣如今是網(wǎng)絡(luò)上炒作得最火熱的貨幣,但它的創(chuàng)始人中本聰?shù)降资钦l,至今仍是個(gè)謎。我們所知道的就是,他是個(gè)天才、億萬富翁,善于隱藏自己,并且已經(jīng)撼動(dòng)了全球金融界。不過專家相信,這個(gè)世界上最難以捉摸的人已經(jīng)被揭露出來了!而揭露他(他們)的正是其寫作風(fēng)格。

2014年,英國阿斯頓大學(xué)的一群學(xué)生在法醫(yī)語言學(xué)家杰克·格里夫的帶領(lǐng)下,分析了中本聰2008年發(fā)表的關(guān)于比特幣的學(xué)術(shù)論文。他們從“仍然”“只有”這類可有可無的詞的使用頻率,“和”“但是”前的逗號(hào)的使用習(xí)慣等線索中,推斷出“中本聰”可能是精通加密貨幣的美國計(jì)算機(jī)科學(xué)家尼克·薩博的筆名。2017年,美國企業(yè)和政治專家亞歷山大·繆斯聲稱,美國國家安全局使用過類似的語言識(shí)別技術(shù)來尋找中本聰,不過,他們并沒有公開結(jié)果是不是薩博。

雖然尼克·薩博并未承認(rèn)自己就是中本聰,但這些試圖找出中本聰?shù)墓适陆o我們提出了一些有趣的問題:我們每次寫東西時(shí)是如何暴露自己的身份的?會(huì)暴露多少我們的個(gè)人信息呢?隨著數(shù)字通信的激增,我們的微博、微信、郵件中隱藏的關(guān)于我們的線索是什么?隨著大數(shù)據(jù)分析的興起,我們還有什么方法可以隱藏自己嗎?

事實(shí)上,幾個(gè)世紀(jì)以來,偵探們一直在用書面語言習(xí)慣的特征來追捕罪犯。這種分析方法叫作“筆觸分析”?,F(xiàn)在,計(jì)算機(jī)筆觸分析的應(yīng)用其實(shí)更常見,它是大學(xué)計(jì)算機(jī)專業(yè)的必修課程,是大學(xué)和出版者檢測剽竊的日常工具,也是專家們從罪犯的網(wǎng)絡(luò)書寫記錄中劃定嫌疑人范圍的有效途徑。

“魔鬼地帶”勒索信

下面,我們來看一個(gè)著名的勒索信案例。綁匪綁架了受害人,用電腦打出了一封勒索信,要求其家人把錢留在“魔鬼地帶”,否則就撕票。

于是,警察尋求了美國語言學(xué)家羅杰·舒易的幫助。舒易知道“魔鬼地帶”是一個(gè)罕見的俚語,指人行道和街道之間的草地,而事實(shí)上,只有俄亥俄州阿克倫市的人會(huì)使用這個(gè)俚語。當(dāng)舒易問警察是否有來自阿克倫市的嫌疑犯時(shí),警察非常吃驚。最終,這名來自阿克倫市的嫌疑犯供認(rèn)了自己的罪行。

這個(gè)案例告訴我們,如果你不想讓你的語言暴露自己,就要避免使用地區(qū)性詞匯或其他特殊詞匯。可是,只要我們提筆落字,我們就有可能被出賣,舉凡字母的大小寫,標(biāo)點(diǎn)后空格的距離,段落是否縮進(jìn),句子的長短等文本特征都有可能出賣我們,更不用說介詞、連詞、人稱代詞等的使用頻率。

研究顯示,有些看似毫無意義的語言可能會(huì)指向一個(gè)人的性格類型、健康狀況,甚至是未來的自殺行為。這是由于語言具有非凡靈活性。語言學(xué)家認(rèn)為,我們學(xué)會(huì)統(tǒng)一的語法之后,就會(huì)開始偏離它來表達(dá)我們的個(gè)性。而現(xiàn)在更普遍的觀點(diǎn)是,我們每個(gè)人都有自己的語言的心智模型,這是由于我們所處的社會(huì)和情感環(huán)境不同造成的,所以,語言就像我們的指紋一樣,每個(gè)人都有不同的語言指紋。

在模仿中隱藏?

那么,怎樣才能躲避那些試圖用你的語言指紋找出你的人呢?有人說,假設(shè)有100位作者,每個(gè)人都提交了一篇文章,而你不希望被人認(rèn)出哪篇是你寫的,你所要做的就是:讓你的文字看起來像其他99位作者之一。

這種方法在某些情況下很有效。在一項(xiàng)研究中,科學(xué)家讓人們模仿美國著名作家科馬克·麥卡錫的寫作方式記錄自己的早晨,結(jié)果,一個(gè)用來檢測麥卡錫作品的電腦程序竟然被愚弄了:它認(rèn)為這些文字都是麥卡錫寫的!

然而,人們通常不能堅(jiān)持這種“正確”的改變。在“魔鬼地帶”案例中,罪犯故意拼錯(cuò)“警察”和“可以”這兩個(gè)單詞,以偽裝成一個(gè)受教育程度較低的人,可惜的是,他同時(shí)也拼寫對(duì)了一些很難的單詞。事實(shí)上,當(dāng)一個(gè)人故意偽裝出和自己平時(shí)不同的寫作手法時(shí),他可能會(huì)暴露更多自己的特征。

語言指紋難以偽裝,這對(duì)偵破刑事案件來說肯定是好事,但是,我們普通人的隱私該怎么辦?畢竟,保持匿名是一種合理合法的需求。很多時(shí)候,只有匿名的情況下人們才能安心地表達(dá)自己的真實(shí)想法,例如學(xué)者們希望他們在同行的評(píng)審中保持匿名。另外,匿名也可能是攸關(guān)告密者、政治人士甚至是程序員生死的問題。這里,我們所討論的程序員并不是指黑客,而是普通程序員——在一些國家或地區(qū),別的地方能用的程序是被當(dāng)?shù)亟沟?,所以有些程序員希望人們能使用一些公開軟件,卻不希望給自己帶來麻煩。

這些情況下,單靠我們個(gè)人的模仿能力似乎很難完全隱藏自己。于是,有人提出了讓高科技去對(duì)付高科技——既然有筆觸分析軟件,那肯定有反筆觸分析軟件吧?

事實(shí)上,許多支持匿名功能、反筆觸分析的程序員正致力于保護(hù)匿名的研究。你所要做的就是上傳你的文字,讓電腦程序告訴你需要改變哪些細(xì)節(jié),才不會(huì)被筆觸分析軟件檢測出來。

反筆觸分析軟件

有一個(gè)叫“匿名嘴”的匿名軟件,其目標(biāo)就是降低筆觸分析的準(zhǔn)確性,使其變得像隨機(jī)猜測。匿名嘴的內(nèi)核是一個(gè)叫JStylo的筆觸分析程序。據(jù)稱,JStylo只需要6500個(gè)單詞樣本就可以創(chuàng)建一個(gè)作者的語言指紋,它將文本與作者進(jìn)行匹配的準(zhǔn)確率可以達(dá)到80%到85%。如此,匿名嘴就可以通過評(píng)估句子長度、單詞選擇和某些字母的使用頻率等功能,建議作者如何修改文本,使其看起來不像是他自己寫的。

類似的軟件還有一個(gè)名為“艾瑪身份”的人工智能程序,該程序需要8000個(gè)單詞樣本來建立一個(gè)作者的個(gè)人資料,匹配準(zhǔn)確度是85%。

然而,現(xiàn)實(shí)中可以用來訓(xùn)練JStylo和艾瑪?shù)臉颖究赡懿⒉怀渥?,而?dāng)匿名的文本是一封精心書寫的信件或亟待發(fā)表的科學(xué)論文時(shí),作者可能會(huì)跳過使用這些程序來修改的步驟。因此,有研究者設(shè)計(jì)了一款名為“作者網(wǎng)”的工具,可以給作者提供寫作的目標(biāo)風(fēng)格,并用一個(gè)可視化的儀表盤來提供實(shí)時(shí)反饋,讓作者知道自己寫的東西和目標(biāo)風(fēng)格的匹配程度。這可以幫助作者更容易、更持久地隱藏他們自己本身的風(fēng)格。

語言學(xué)家告訴我們,其實(shí)最具希望的反筆觸分析方法很簡單,那就是合作寫作。一個(gè)人寫,另一個(gè)人編輯,可以有效地互相抵消語言指紋。這可能正是中本聰長期隱瞞自己身份的策略——有些人認(rèn)為,比特幣背后隱藏著的是一個(gè)群體,而不是一個(gè)人,隨著他們的語言指紋錯(cuò)綜復(fù)雜地交織在一起,他們可能會(huì)繼續(xù)安全地潛伏下去。

猜你喜歡
中本語言學(xué)家筆觸
拯救瀕危語言
藝術(shù)之春
張德娜:以細(xì)膩筆觸詮釋自然之美
比特幣的謎底,很多年后才會(huì)揭開
言語行為對(duì)跨文化交際行為的影響
懷揣一生使命 勇攀藏學(xué)珠峰——訪中國民族語言學(xué)家瞿靄堂教授
“中本貫通”政策的邏輯、隱憂及理性實(shí)踐
应用必备| 凤庆县| 化州市| 锦屏县| 翁源县| 石门县| 涿州市| 万源市| 彩票| 黎川县| 吉木乃县| 姜堰市| 揭西县| 渝北区| 奇台县| 赤峰市| 晋城| 尼勒克县| 崇文区| 静海县| 玛多县| 太白县| 稻城县| 扬州市| 巴青县| 吉安市| 黑龙江省| 德令哈市| 巴东县| 阿鲁科尔沁旗| 澎湖县| 兰州市| 诸城市| 景泰县| 罗山县| 宜川县| 神池县| 阿拉善左旗| 监利县| 石城县| 遂川县|