爬蟲技術就業信息管理平臺設計

時間:2022-09-30 10:48:48

導語:爬蟲技術就業信息管理平臺設計一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

爬蟲技術就業信息管理平臺設計

對于高職院校而言,其各項工作中最重要的一項就是就業工作,學生未來發展等均與此項工作存在極為密切的聯系,學校聲望等也會受其直接影響。此項工作涉及的方面較廣,除學校外,還包括企業等,具有的特征也極為鮮明,例如時效性等等,因此,如何對有關方面的聯系有效增強,盡快掌握相關信息,以學生的實際需求為依據精準推送就業信息并提供相應的服務。

1平臺功能及架構

1.1平臺功能。按照不同用戶和流程的需求,該平臺需要具備多種功能,具體包括基礎信息管理、撰寫簡歷的功能、基礎參數設置、招聘方管理、權限管理、互聯網招聘和求職等等。1.2平臺功能架構。校方、企業等有關方面的聯系是通過該信息平臺聯系起來的,因此,信息即時傳輸、共享以及分類是其應具備的基本功能,以不同方面的實際需求作為切入點,對求職、推薦符合需求的人才等功能需求予以充分滿足,按照使用群體,可以更進一步的劃分該平臺。對招聘需求予以充分滿足,是該平臺企業子系統的主要作用,其涵蓋的功能有注冊、信息、在線招聘(審核人員是否滿足相關要求、在線筆試和面試)、反饋聘用結果等。對求職要求予以滿足是學生子系統的主要作用,相對于企業子系統其具有更加豐富的功能,具體有維護個人信息、撰寫和修改求職簡歷、登記求職信息等。求職意向是其中比較重要的功能,學生對于工作行業、職務、薪酬等方面的要求均通過該功能進行設置,除此之外,該功能還可以充分融合學生具有的工作和學習經歷,并以此為基礎生成相應的特征參數;該子系統眾多功能中最關鍵的就是職位推薦,其在相應特征參數的基礎上展開推薦算法,相似度計算的數據來自于招聘信息,在向特定學生推薦職位時是以位于該計算所得結果為依據的,如此,就業推薦等工作的精準性可以得到可靠保證。對于就業招聘的各個相關方面而言,其聯系是通過學校實現的,基于此,審核企業等方面的資質是該子系統必須具備的功能,同時可以提供合理的就業指導等,及時傳達和正確解釋國家有關部門下發的通知等,調查就業狀況、統計和分析就業局勢、管理相關信息的功能等。在上述眾多功能中最核心的就是數據管理,招聘職位的數據量會直接影響到就業成功率,招聘數據的來源主要包括兩方面,其一是注冊企業;其二,則是智聯招聘等既有的比較具有代表性的人才招聘平臺,校方會定期從中對招聘信息進行挖掘,通過篩選和整理相關數據可以促使相應的大數據得以形成。

2平臺的關鍵信息及技術

2.1學生求職意向特征模型的設計。本研究創建的平臺模型也是由多個不同維度構成的,為了給預測和挖掘數據創造有利條件,本文對不同維度在取值上進行了嚴格的規范,不同維度的意義和對應取值為:構成特征模型的維度共計8項,具體涵蓋了受教育程度、經驗等。不同維度的意義和取值是:受教育程度:該維度被劃分為7個不同等級,具體按照學歷由高到低排列,博士位居首位,而初中或無要求則位居第七。工作經驗:n。n的值表示工作經驗年限;對此沒有特殊要求的表示為0,反之,則規定具體的n值。期望單位性質:1事業;2國企;3民營;4上市;5外資。期望工作地點:省/市;省;直轄市;直轄市/區,如果只是寫上了省或直轄市,那么則可以直接等同于這一整個省的人群渴望從事這一項行業:相關行業的各項操作也必須要予以規范化處理。期望崗位:根據國家相關職位的分類標準來進行詳細劃分,并做出妥善化處置。期望月薪:這里主要是用n來予以表示,[n-500,n+500,不管在什么時候,其的浮動空間都在500元左右,一切都是由系統直接進行設置。期望福利:這里主要囊括了“五險一金、周末雙休……”等在內的多種表達類型。2.2基于特征標識的爬蟲技術的職位信息抓取。當開始對于“行業”這一層次進行劃分,某服務平臺還是會將其直接劃分成為11個一級大類,而在另外一個平臺當中則會與前者保持著一定的差異,其包含的是13個一級大類,甚至于在一些特殊情況之下,還會將招聘崗位的名稱、招聘人數等全部都包含其中。事實上,將上述要素刨除之外,我們還應該要充分的了解到企業人力資源對求職者的反饋時間等,只有如此,企業的效率才會真正展現出來?;诖?,對于某一種服務平臺,我們除了需要對其平臺內容進行了解外,還必須要充分的了解到職位信息頁面的相關源代碼,做出妥善化判斷。并通過Python語言來編寫出一系列完善的爬蟲程序,相關數據也會被清晰的記錄到位。2.3基于大數據技術的數據職位信息的清洗與歸整。舉例而言,在“工作經驗”方面主要有以下幾類措辭,具體如下:“5-7年經驗、1年經驗”等,具體的描寫還是由社會企業而定。在“招聘人數”方面主要有以下幾類措辭,具體如下:“招2人、招若干人”等;。所以,想要了解這一系列爬取的原生數據,就必須要對其進行透徹化的分析與處理,每一項數據都需要被定時的清洗并全部都歸整到一起,文本信息數值也會達到最大化狀態。這一平臺還是會基于數據來做出約定處理,相關“工作經驗”也會直接被規整為“n或n-m”,“招聘人數”的數據也會被直接確定為整數。2.4基于用戶需求特征的職位推薦算法。在進行職位推薦的時候,我們都應該要充分的了解到每一位學生的個性求職需求,結合當下的實際情況來將這一招聘崗位的特點全部都揭示出來,學生也能夠從中了解到適合自己的職位?,F如今,在運用推薦算法的時候,我們還是應該要充分地將人口統計學的推薦、基于內容的推薦等三種方式充分的利用起來,在具體的情況之下來做出最優的選擇。之所以會選擇人口統計學的推薦方式,主要還是因為為了能夠充分的了解到學生的求職期望,只有如此,個體與其它學生的相似度也能夠全部都揭示出來,一些與學生相似度較高的職位也會被推薦出來,然而在這種情況之下,這一算法僅僅只是了解了當下學生求職期望的相似度,但是卻沒有充分的考慮到學生與職位的匹配程度。關于內容的推薦這一方式,其實與人口統計學的推薦存在極大的類似情況,究其核心,還是需要考慮到內容數據的實際建模情況,在這種情況之下,學生在了解了一系列招聘職位的相似度之后,還會直接影響到算法的實際精度。基于當前的這一協同過濾推薦算法,其發展核心還是需要根據用戶交互行為的實際化數據來推進建模工作的完成,更加具體而言,其主要囊括了用戶的推薦(User-basedRecommendationUF)、項目的推薦(Item-basedRecommendationOF)等三種方式,每一項都必須要予以切實的了解。事實上,基于用戶的推薦與基于人口統計學的推薦方式本身就存在極大的類似性,在一定程度之上,我們必須要清楚的了解到每一位學生對招聘職位歷史的偏好數據,并將“k鄰近”算法予以充分的利用,這能夠很好的完成用戶的實際化相似度,學生們必須要充分的了解招聘職位的歷史偏好數據,并對其做出準確化的分析,運用“k鄰近”的這一種算法能夠很好的將招聘職位的相似度計算出來,并構建起一個完善的推薦模型。

3爬蟲技術實現

在了解了當前這一類典型人才招聘服務平臺所的招聘職位數據情況之后,我們必須要承認一點,只有依靠爬蟲程序才能夠確保整個平臺的運行更加深入、持續,在完成了一系列的初步清洗工作之后,其已經獲得了87000條數據。在進行數據整理的時候,其還是應該要針對于單位性質、學歷等多個部分予以切實的調整,從而將其做出歸納與升級。

4結束語

本文主要是基于當前就業管理工作目標的實際情況,在充分的完成了一系列就業指導、管理等工作之后,我們能夠更好地滿足每一個學生的工作需求,針對于目前就業工作當中所存在的招聘職位數量和質量需求難的這一問題予以詳細化分析,并采取專業化的措施來將其解決?;趯W生自身的工作需求,在了解了人口統計學之后,采用合適的算法為學生推薦個性化工作,促進學生能夠順利就業。大量實踐的結果可以證明,這一系統能夠很好的讓學生實現就業,找尋到自身心儀的工作,企業也能夠更好的選擇優秀的人才,學校的就業工作質量也明顯提升,因此,可以進一步推廣。

參考文獻

[1]林佳一.基于Web服務的高校就業信息服務平臺研究[J].計算機時代,2015(05).

[2]李暉,牛犇,李維皓.移動互聯網服務的隱私保護機制[J].中興通訊技術,2015(03).

[3]李廣杰.高職院校導向型學籍管理網絡平臺的設計[J].信息與電腦(論版),2015(08).

[4]田建勇.基于云計算的Web數據挖掘研究[J].信息安全與術,2015(04).

作者:曹素娥 單位:山西大同大學計算機與網絡工程學院