大數據語言學研究形勢探究
時間:2022-04-10 04:27:42
導語:大數據語言學研究形勢探究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:近年來隨著科學技術的發展,大數據、數據庫等概念頻繁地出現在人們視野。其中,大數據以及構建外文語料庫在學術研究領域蔚然成風。通過查閱相關的期刊、論文和書籍對其有一定的了解。本文從大數據是什么,構建語料庫對于語言學研究的意義是什么,以及在大數據背景下語言學研究的形勢變化入手,對當今大數據背景下數據和語言學研究的現狀進行簡要的解釋和討論,同時希望對數據庫有一個比較整體的認識和了解。
關鍵詞:大數據;語言學研究;語料庫
一、前言
隨著計算機科學技術的快速發展人們迎來了信息時代。信息時代的一個重要特點就是大量的數據的涌現。這使得人們的生活方式和思維方式發生改變,也對語言學研究產生重大的影響。語言學研究離不開對語言資料搜集、處理、整合。傳統的語言研究在搜集語料方面是十分低效的,需要大量的人力去翻閱典籍、做記錄。現在通過大數據與語言研究的結合,使得這些問題都迎刃而解。根據不同的語言研究目的,學者們將會構建不同內容的語料庫,從而完成對語料的處理、加工等事宜。可以說,大數據開啟語言研究的一個新的天地。
二、大數據
近年來在計算機科學領域最火的一個詞就是“大數據”。對于“大數據”,人們起初是一個朦朧的認識狀態,但是,隨著科技發展以及對大數據的運用,人們開始認識到大數據的巨大作用和意義。大數據不僅改變著人們的日常生活方式,而且對人們的思維方式也有了潛移默化的影響。與此同時,它也拉近不同領域之間的距離,從而對交叉學科發展具有重要的意義。它帶動著各個領域的發展,使人們更加清晰地認識我們所生活的世界。大數據不僅僅是體現在它數據的龐大上,更重要的是透過這些龐大的數據背后所隱藏的信息價值——人類認知、行為的模式以及人和社會、自然交互的規律。在過去的科學研究中,我們能利用的資源是有限的,或者說很難搜集到比較全面的信息內容,很多時候人們都是通過有限的事例來總結普遍的規律。這樣往往會使人忽略掉一些重要的規律,甚至走向錯誤的方向。大數據卻可以快速高效為我們提供相應的數據信息,同時也會提供相關信息,這是在傳統研究方式中不曾有的操作。身處在這個大數據的時代,我們不可避免要受到它的影響。通過網絡,我們可以快速便捷的找到需要的信息,也能通過編輯、搜索等產生各種數據。我們總是接收、檢索新信息和處理現有信息。通過不同地區、不同領域、不同國家,在某一時段內信息的檢索和處理,我們可以對其在該時間段的狀況有一個初步了解和預判。例如:2018年的春運,我們通過大數據獲取各地間往返的客流量以及他們所選取的交通方式,進而在飛機航班、高鐵發車次數、火車列次上作出相應的調整,減輕了客運樞紐的壓力,減輕了春運的壓力。語言作為人類的交際工具,廣泛應用于各個領域。古往今來,人們不斷開拓新事物、新領域,隨之相應地語言體系也逐漸形成并壯大。因此大數據為語言學研究提供了大量的事實語料。同時,也在影響著語言研究的方法。面對大量的事實語料,我們要對其進行科學地分析、處理以及整理,這需要一個完整的系統工具來完成這項任務。
三、語料庫——語言學研究工具
20世紀60年代開始語料庫語言學逐漸建立。語料庫語言學是以經驗主義和科學理性主義為哲學基礎,自下而上的歸納法為其方法論。從建立起,就一直以真實語料為研究的基礎,以大量的日常用語為依據,以概率為特征,通過統計量化的手段建立模型。語言學研究應該以語言事實為依據,廣泛地、細致地搜索語言資料。隨著計算機的發展,通過構建語料庫來進行語言研究已經成為一個趨勢。語料庫是儲存了很多事實語料的庫房。語言學要重視對自然真實語料的意義研究,所以,語料庫的數據不僅要追求“量”,也要重視其“質”。語料庫作為語言研究的工具,需要收錄大量的真實語料。在構建語料庫時,文本采集要有一定的標準,采集的文本量也要達到電腦可以處理的規模。其中,需要對采集來的文本進行標注、賦碼等過程的加工。語料庫在語言研究的各個領域都有重要的作用。在語言教育的領域,對語料詞頻、讀音、句型、搭配等進行分析統計,可對語料有十分清晰的把握。在應用語言學領域也運用廣泛。如:利用相關的系統軟件,對語料庫可以進行句法、詞匯、口語、語義、語言變異、話語分析等的研究。除此之外,還能通過運用語料庫技術進行語音合成、識別的任務等。在社會語言學領域,依據大規模真實語料進行社會語言現象、語言變異等分析,可以得到更加客觀的準確的數據和結論。在文學領域,開拓文學研究同語料庫相結合的新型研究模式。通過構建文學典籍及作品評論的語料庫,并對其進行標注和檢索等處理和加工。分別研究當中的人物形象、作品風格、主題、意象等進行分析,可以為觀點提供更加客觀的數據支撐。在翻譯領域,為了提高翻譯的效率和準確性會利用建成的雙語平行語料庫。同時,雙語平行語料庫還能為翻譯研究和實踐,提供實證材料的支持。在語言定量分析領域,通過利用大規模的真實語料,設計出要進行定量分析的知識點和所使用的各種題型,可以提高定量分析結果的效率和認可度。在大數據的背景下,我們能更加方便、快捷地實現資源共享,語料庫亦是如此。如:日本構建的免費文庫“青空文庫”,它收錄了大量的日本著名作家的文學作品。這對很多日本文學的研究者提供一個高效地收集一手資料的途徑。在語言研究方面起到了很大作用。我們可以通過語料庫檢索到所需的語言信息,然后通過相應的軟件進行分析、研究。由此可見,語料庫是語言研究的重要工具。通過利用日文語料庫檢索信息的時候,我無意間發現,他們不止建立了自己本民族語言的語料庫,而且對其他語言也構建了相對完整的語料庫。如:中文的方言語庫、讀音語庫、同義詞語庫等。通過對這些語料庫的利用和觀察,我們可以認識到日本人對中國文字的理解程度,同時,這對兩中語言在翻譯和習得等方面有很大幫助。語料庫不僅處在雙方語言的立場,它應該是多方的。如:中國和日本都會建立自己的相應的英語、法語等的語料庫,對這些語料庫的考察我們可以看到作為第二語言習得的國家,對這一第二語言的認識和發展的程度。實際上,語料庫中有太多我們要檢索的未知。
四、語言學研究形勢
在大數據的背景下,語言研究煥發出新的生命力。語言作為信息交流的工具,與各個領域都關系密切。而大數據又縮短了各個領域間的距離,這使得語言研究不再是一個孤立的課題,我們要重視其相關學科的研究與發展,為語言學研究注入新的活力。布里斯南對于大數據時代的語言研究體會是從“花園”走向“灌木叢”。她認為“花園里的語言學”主要是分析語言學家們根據內省或者精挑細選得到的語言現象,且通過句法樹等符號來進行定性的概括和總結?!肮嗄緟仓械恼Z言學”研究的是人們在現實生活所用的真實語言,往往借助條件概率、信息量等來進行定量分析。在這過程中,語言學研究形勢會有顯著的變化。語言學的研究形勢在大數據背景下呈現出以下幾個特點:第一,由曾經尋找語言事實內部的因果關系轉向尋求語言事實間的相關關系。第二,不再過度追求微觀層面上的精確性會讓我們在語言宏觀層面擁有更好的洞察力。第三,語言研究由尋找因果關系和構建各種語言解釋模型轉變為研究語言事實的相關關系上??偠灾恳淮蔚臅r代變革,都會在語言中留下痕跡,我們要追尋、探究這些痕跡,不斷促進對語言的認識。我們要注重語言學的研究也要關注其相關學科的研究。在大數據的背景下,語言研究有著新的機遇和挑戰。
五、結語
語言學從花園到灌木叢,這是信息時代的大數據給予我們的認識。未來,我們是否會從灌木叢走向森林,這取決科技和語言學的發展程度。就目前初進灌木叢的語言學者來說,面臨著無限的新奇和挑戰。一方面語言學家享受的大數據帶來的便利,另一方面也認識大數據本身這個事物。如何更好地利用它進行語言學研究已成為一個重要課題。
【參考文獻】
[1]劉海濤,林燕妮.大數據時代語言研究的方法和趨向[J].新疆師范大學報,2018(1):72-83.
[2]林海倫,王元卓,賈巖濤等.面向網絡大數據的知識融合方法綜述[J].計算機學報,2017(1):1-27.
[3]袁昌萬,劉承宇,常淑麗.系統功能語言學與語料庫的契合[J].外國語文,2016(1):104-109.
[4]李華勇.大數據視野下的語言研究新觀[J].重慶交通大學學報,2015(4):134-137.
[5]詹衛東.大數據時代的漢語語言研究[J].山西大學學報(哲學社會科版).2013(5):70-77.
作者:田春媛 單位:黑龍江大學
- 上一篇:英語語言學語境功能分析
- 下一篇:語言學研究方法論思考
精品范文
10大數據學習感悟