久久久精品无码人妻宝贝乖_国产精品一二区_欧美 日韩 国产 成人 在线_久久一区二区电影

在線客服

數(shù)據(jù)分析論文

引論:我們?yōu)槟砹?篇數(shù)據(jù)分析論文范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

數(shù)據(jù)分析論文

數(shù)據(jù)分析論文:大數(shù)據(jù)分析煤礦安全生產(chǎn)論文

1綜合決策分析缺乏時空維度的支持

煤礦安全生產(chǎn)和管理是一個與時間和空間相關的過程,其綜合決策分析離不開時間和空間維度的參與,而現(xiàn)有的煤礦信息系統(tǒng)往往缺乏時空維度的決策分析工具,如拓撲分析、緩沖區(qū)分析、密度分析、疊置分析、時間和空間趨勢探測分析、時間/空間關聯(lián)分析、時間/空間自回歸分析等。煤礦安全生產(chǎn)內(nèi)涵豐富,既包含了日常性事務性的風險超前預控管理,又包含即時性的風險識別、監(jiān)測、預測乃至預警,這就給安全生產(chǎn)管理的各類信息系統(tǒng)建設提出了很高的要求,需要滿足監(jiān)控實時化、系統(tǒng)集成化、數(shù)據(jù)海量化、分析決策在線化和智能化,這些都是目前信息系統(tǒng)建設的短板。上述問題的存在使得我國煤礦安全生產(chǎn)形勢沒有本質的好轉,諸多信息化建設成果(硬件、軟件)在煤礦安全生產(chǎn)過程中也沒有起到預期的成效。

2煤礦安全生產(chǎn)大數(shù)據(jù)分析系統(tǒng)

2.1大數(shù)據(jù)分析的概念大數(shù)據(jù)分析

是指數(shù)據(jù)量急劇積累迅速超出主流軟件工具和人類思維處理的極限,大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)比較起來,有四大特征:數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)類型繁多(Variety)、數(shù)據(jù)價值密度低(Value)、更新速度快時效高(Velocity)。大數(shù)據(jù)分析需要全新的數(shù)據(jù)處理理念和分析工具,洞察發(fā)現(xiàn)海量高速增長信息中潛藏的價值[4]。從理念上,大數(shù)據(jù)分析與傳統(tǒng)數(shù)據(jù)分析有三大轉變:要全體不要抽樣,要效率不要,要相關不要因果。針對大數(shù)據(jù),既有的技術架構和分析工具已經(jīng)無法滿足要求,需要全新的數(shù)據(jù)分析方法和技術,這其中包括:(1)大數(shù)據(jù)分析可視化方法;(2)大數(shù)據(jù)挖掘算法;(3)預測性分析能力;(4)語義處理能力;(5)數(shù)據(jù)質量和數(shù)據(jù)管理技術。

2.2大數(shù)據(jù)分析系統(tǒng)的建設

根據(jù)大數(shù)據(jù)處理和分析的理念,煤礦安全大數(shù)據(jù)分析系統(tǒng)的建設目標包括:數(shù)據(jù)綜合集成、安全知識集成、三維虛擬可視化展示、煤礦安全動態(tài)分析診斷。具體建設內(nèi)容包括:(1)基于物聯(lián)網(wǎng)/云計算技術的煤礦安全綜合數(shù)據(jù)庫。建設煤礦安全大數(shù)據(jù)分析診斷系統(tǒng),首先要利用物聯(lián)網(wǎng)和云計算技術實現(xiàn)綜合的數(shù)據(jù)集成,將基礎空間和屬性數(shù)據(jù)、在線監(jiān)測的實時性數(shù)據(jù)、專業(yè)業(yè)務系統(tǒng)的事務性數(shù)據(jù)綜合集成起來,構建煤礦安全綜合數(shù)據(jù)庫。(2)基于專家系統(tǒng)的煤礦安全專家知識庫。針對知識集成的目標,整理規(guī)范規(guī)程體系中的經(jīng)驗或者理論知識(煤礦安全規(guī)程、煤礦作業(yè)規(guī)程、三違行為知識、隱患界定知識、評估模型、設備操作規(guī)程知識、工種操作規(guī)程知識),構建煤礦安全動態(tài)分析診斷的專家知識庫。(3)建設三維虛擬礦井可視化平臺。針對信息和知識三維虛擬礦井可視化展示分析,主要的建設內(nèi)容是基于高精度地質模型理論研究開發(fā)三維虛擬礦井平臺,實現(xiàn)地層建模、鉆孔建模、斷層建模、工作面建模和巷道建模等工作。然后,基于三維虛擬礦井平臺,實現(xiàn)數(shù)據(jù)和知識可視化、煤礦安全生產(chǎn)活動可視化、分析和決策過程可視化。(4)研發(fā)煤礦安全動態(tài)分析系統(tǒng)。針對基于專家知識庫的煤礦安全生產(chǎn)分析決策,需要利用煤礦安全綜合數(shù)據(jù)庫中的基礎數(shù)據(jù)、實時監(jiān)測數(shù)據(jù)以及事務性數(shù)據(jù),根據(jù)煤礦安全專家知識庫進行煤礦安全生產(chǎn)狀況評估、推理和演繹,動態(tài)分析診斷煤礦安全生產(chǎn)的現(xiàn)狀與趨勢、預測未來,并針對煤礦應急現(xiàn)象做出科學合理的響應對策。

3結語

物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)分析帶來了新的數(shù)據(jù)處理和分析的視野[5],也必將影響煤礦企業(yè)的信息化建設,成為提升煤礦安全生產(chǎn)水平的核心信息技術手段。與互聯(lián)網(wǎng)、電子商務、電信通信等行業(yè)相比,煤炭行業(yè)在這方面的發(fā)展稍稍晚一些。因此,煤礦科技研究工作者需要抓住時機,在大數(shù)據(jù)分析處理的研究和應用上付出更大努力,推動煤礦信息化建設發(fā)展。

作者:魏忠奎 袁傳增 單位:山東能源棗礦集團田陳煤礦

數(shù)據(jù)分析論文:數(shù)據(jù)分析網(wǎng)絡輿情論文

網(wǎng)絡輿情是由于各種事件的刺激而產(chǎn)生的通過互聯(lián)網(wǎng)傳播的人們對于該事件的所有認知、態(tài)度、情感和行為傾向的集合[1]。在大數(shù)據(jù)背景下,網(wǎng)絡輿情呈現(xiàn)以下特征:1.信息數(shù)據(jù)量龐大,2013年我國產(chǎn)生的數(shù)據(jù)總量超過0.8ZB(相當于8億TB),兩倍于2012年;2.網(wǎng)絡信息來源多樣,信息內(nèi)容來源于各門戶網(wǎng)站,博客、論壇、微博、微信等;3.信息傳播速度快,尤其是微博、微信等的即時性特征,可以將信息同步傳播。網(wǎng)絡信息呈現(xiàn)出的特征在網(wǎng)絡科技日益進步的情況下將會越來越突出。在海量、復雜的數(shù)據(jù)環(huán)境下,要及時有效地發(fā)現(xiàn)網(wǎng)民的認知、態(tài)度、情感和行為傾向,依靠傳統(tǒng)的數(shù)據(jù)人工獲取、人工分析的方法顯然是難以應對的。我們需要應用情報分析手段,從繁雜的網(wǎng)絡信息中采集熱點信息,將信息修剪、清洗、統(tǒng)計,獲取輿情評估結果,實現(xiàn)網(wǎng)絡輿情有效管控。

一、基礎數(shù)據(jù)采集

網(wǎng)絡產(chǎn)生巨大的數(shù)據(jù)量,例如2013年,每天平均產(chǎn)生兩百多萬TB的數(shù)據(jù)量而且信息來源多樣,這些信息都是獲取有效輿情的數(shù)據(jù)基礎,我們首先要盡可能地收集到這些信息。網(wǎng)絡數(shù)據(jù)獲取可以采用網(wǎng)站提供的API或網(wǎng)絡爬蟲工具獲取。使用API方式是通過網(wǎng)站提供商獲取數(shù)據(jù)信息,為了避免頻繁調(diào)用對網(wǎng)站服務產(chǎn)生影響,一般調(diào)用API次數(shù)都會有一定限制,同時網(wǎng)站對于獲取數(shù)據(jù)權限有各種限制,由于種種限制,目前普遍研究和使用的網(wǎng)絡爬蟲都不使用API。網(wǎng)絡爬蟲指從一個或多個指定的網(wǎng)頁開始,在全網(wǎng)范圍搜索獲取網(wǎng)絡信息資源,通過簡單設置目標網(wǎng)站、爬行間隔和存儲位置等就能夠自動批量獲取網(wǎng)頁內(nèi)容,為數(shù)據(jù)獲取提供極大便利。常見的網(wǎng)絡爬蟲有傳統(tǒng)網(wǎng)絡爬蟲和聚焦網(wǎng)絡爬蟲。傳統(tǒng)網(wǎng)絡爬蟲獲取的數(shù)據(jù)有一定盲目性,獲取的信息很大一部分都不符合要求,造成時間、資源的浪費。而傳統(tǒng)網(wǎng)絡爬蟲的并行機制也帶來數(shù)據(jù)重復抓取、頁面質量下降等問題。但傳統(tǒng)網(wǎng)絡爬蟲具有獲取數(shù)據(jù)完整、速度較快的優(yōu)點。聚焦網(wǎng)絡爬蟲增加了頁面相關度評價和URL價值評價功能進行信息過濾和分析,利用主題相關度評價模型過濾掉與主題無關的網(wǎng)頁,利用URL主題相關度控制爬蟲爬行過程,不遍歷和主題無關頁面,提高爬行效率。聚焦網(wǎng)絡爬蟲數(shù)據(jù)相關性高,但速度較慢。在輿情采集過程中合理利用網(wǎng)絡爬蟲,可以在短時間獲取大量網(wǎng)絡數(shù)據(jù),但這些數(shù)據(jù)存在大量冗余,數(shù)據(jù)針對性不高,需要后續(xù)提取分析。

二、冗余數(shù)據(jù)清洗

網(wǎng)絡輿情分析的主體是與主題相關的數(shù)據(jù)信息,通過網(wǎng)絡爬蟲程序獲取的是由HTML和各種腳本語言構成的web頁面,web頁面由與主題相關的網(wǎng)頁正文和與主題無關的數(shù)據(jù)組成,與主題無關的數(shù)據(jù)也稱為網(wǎng)頁噪音。由于web頁面的形式多樣,正文與噪音之間沒有明確的界限,而大量存在的網(wǎng)頁噪音造成資源浪費,對正文分析也造成很大干擾。我們需要對頁面進行處理,剔除網(wǎng)頁噪音,比如頁面中的廣告、導航信息、說明文字等,提取正文、鏈接、作者、點擊量等主題相關信息。通過去噪處理得到的文檔一般包含大量重復信息,互聯(lián)網(wǎng)信息頻繁的轉發(fā)、復制以及不同URL地址指向同一頁面等情況都導致信息重復,重復信息成倍增加工作量,去除重復文檔也是進行正文提取、分析的必要步驟。我們可以對文檔進行向量化處理之后,計算各個特征詞的權重,利用相似度算法計算詞語與詞語之間的相似度,通過計算文檔相似度,去除重復信息。當前網(wǎng)頁去重算法有很多,但大多數(shù)都是基于shingling和LsH的思想,比如對shingle生成策略的改進,對LsH指紋間海明距離計算的改進,以及對這些算法本身參數(shù)設置不同而帶來性能變的研究等。

三、正文文本提取

通過去噪去重處理,修剪掉網(wǎng)頁多余數(shù)據(jù),如何快速有效地提取出需要的正文就需要正文提取技術。正文提取技術也是網(wǎng)絡輿情發(fā)現(xiàn)的一項重要技術。當前常用的網(wǎng)頁正文提取算法包括基于DOM樹的網(wǎng)頁正文提取技術、基于內(nèi)容規(guī)則的網(wǎng)頁正文提取技術、基于統(tǒng)計學特征的網(wǎng)頁正文提取技術和基于神經(jīng)網(wǎng)絡的網(wǎng)頁正文提取技術等。各種提取技術各有優(yōu)劣,比如目前應用比較廣泛的基于DOM樹的網(wǎng)頁正文提取技術,它利用HTML的各種標簽信息,將網(wǎng)頁內(nèi)容轉化成規(guī)范的樹形結構,通過遍歷DOM樹的節(jié)點,裁剪與正文無關的節(jié)點而得到正文內(nèi)容。這種算法依賴于HTML標簽,對于HTML規(guī)范性要求很高,而且解析過程效率也較低。利用統(tǒng)計學特征的正文提取技術將HTML代碼解析后以行或段為單位保存,統(tǒng)計單位文本和HTML代碼的字節(jié)數(shù),通過計算文本和字節(jié)數(shù)比例得到文本密度,如果密度大于事先設定好的文本閾值,則該部分內(nèi)容判定為正文。這種算法不需要分析源碼,判斷度較高,但限制性也較大,對于正文集中的內(nèi)容效率較高。實際應用中需要針對輿情來源及其特點,結合使用各種網(wǎng)頁正文提取技術,以達到提取效率和度。

四、信息分類與關聯(lián)

網(wǎng)絡信息數(shù)據(jù)多樣,來源復雜,數(shù)據(jù)分布離散。通過文本處理抽取的正文數(shù)據(jù)往往是相互沒有關聯(lián)的數(shù)據(jù),這些文本在使用時就面臨無法分析、統(tǒng)計等諸多問題。利用數(shù)據(jù)挖掘技術可以將文本經(jīng)過分類、聚類、關聯(lián)規(guī)則發(fā)現(xiàn)等一系列處理,從海量數(shù)據(jù)中發(fā)現(xiàn)主題相關的信息,發(fā)現(xiàn)其中的模式、規(guī)律等,從而為輿情分析與預警提供依據(jù)。文本分類指按照預先定義好的類別集合,根據(jù)文本內(nèi)容進行文本自動分類的過程。是一種有監(jiān)督的機器學習問題。當前的文本分類技術,大多數(shù)是基于向量空間模型,用規(guī)則的向量來表示不規(guī)則的文本數(shù)據(jù)。文本分類一般分為訓練和分類兩個階段,訓練階段需確定類別集合,并在類別集合選取代表性文檔計算特征矢量。分類階段則計算待分類文檔特征矢量,通過與各集合特征矢量比較選取相似度最接近的集合。文本聚類在沒有類別集合的情況下進行文本分類。主要依據(jù)文檔相似度,通過計算將相似文檔進行歸類。不同的聚類算法采取不同的文本向量組織調(diào)度策略,以不同的方式進行相似或相異的比較,將大量無序的文本劃歸為若干類簇,使得不同類簇描述不同事件,得出不同的話題。文本聚類是一種無監(jiān)督的機器學習問題,不需要預先定義集合,具有一定的靈活性和較高的自動化處理能力。網(wǎng)絡獲取的數(shù)據(jù)類型多樣,比如對于一個輿情熱點事件,我們可能從網(wǎng)頁獲取事件過程,從論壇、博客等獲取關注度和轉發(fā)量,從公安部門獲取人員、關聯(lián)信息等,這些數(shù)據(jù)我們需要通過關聯(lián)規(guī)則發(fā)現(xiàn)關聯(lián)關系,將數(shù)據(jù)整合為相關的數(shù)據(jù)網(wǎng)。關聯(lián)規(guī)則挖掘過程主要包含兩個階段,及時階段從獲取的復雜數(shù)據(jù)聚合中找到出現(xiàn)頻率高的數(shù)據(jù)組,第二階段在這些高頻數(shù)據(jù)組中產(chǎn)生關聯(lián)規(guī)則。有效的關聯(lián)規(guī)則對于輿情分析有重大意義,但目前我國對這一領域的研究應用尚不深入。

五、話題檢測與追蹤

話題不同于主題、事件等概念,話題是由某一個特定事件和與該事件相關的一系列事件共同構成的。在大量網(wǎng)絡信息中,發(fā)現(xiàn)某一話題并按照該話題收集與其相關的信息,對信息重新組織,可以有效了解話題的發(fā)展與演變。信息的采集、處理、分類、關聯(lián)等方法將網(wǎng)絡中存在的大量無序數(shù)據(jù)整合為統(tǒng)一的、存在映射關系的數(shù)據(jù)網(wǎng),這個過程以網(wǎng)絡中已經(jīng)存在的各類信息為主體進行簡單檢索和歸類。隨著網(wǎng)絡規(guī)模的幾何增長,網(wǎng)絡信息多樣化,網(wǎng)絡輿情具有隱蔽性、突發(fā)性、自由性等特點。話題發(fā)現(xiàn)與跟蹤技術的關注點不僅僅在網(wǎng)絡已有信息的收集處理上,還要在大量信息基礎上,自動分析判斷,發(fā)現(xiàn)值得關注的深層次的、新的信息并進行追蹤,更傾向于新信息的發(fā)現(xiàn),話題跟蹤依據(jù)與某話題相關的少量事件,判斷出后續(xù)新聞報道流中與該話題相關的報道,并將相關報道收集起來實現(xiàn)跟蹤。通過大規(guī)模文檔自動聚類建立話題。話題檢測與追蹤對復雜無序的網(wǎng)絡事件進行深入分析,總結事件中的特征規(guī)律。當某一網(wǎng)絡事件特征符合其中規(guī)律時,就可以預測該事件的發(fā)展結果,并對于預測可能導致重大后果的事件進行輿情預警。網(wǎng)絡監(jiān)控人員可以根據(jù)預警提前對網(wǎng)絡事件進行預防疏導,避免產(chǎn)生嚴重后果。

六、信息定量評估

一般通過數(shù)據(jù)采集、修剪、提取和分類后可以獲得大量輿情信息,并通過跟蹤檢測手段獲取話題發(fā)展規(guī)律從而對輿情事件采取積極的、有的放矢的應對措施。信息評估不屬于輿情信息獲取的組成部分,但在具體輿情監(jiān)控工作中,不同地域、不同行業(yè)對于信息的需求不同,如何從用戶角度出發(fā),對獲取的數(shù)據(jù)進行評估是非常重要的一個方面。從公安行業(yè)需求角度,按照話題熱度、行業(yè)敏感度等綜合評估,對于信息的定量分析與把握是非常必要的。公安行業(yè)對于輿情有很多特定的關注點,把握關注點的關鍵詞是重要的評估指標,關鍵詞來源于公安行業(yè)多年信息數(shù)據(jù)積累,有基于行業(yè)的文本信息關鍵詞,比如警察、公安局等,基于案件的文本信息關鍵詞,比如偷竊、搶劫等,基于轄區(qū)的文本信息關鍵詞,比如蘭州、城關區(qū)等,基于重大事件的文本信息關鍵詞,比如爆炸、貪腐等。通過對這些關鍵詞的甄別提供輿論傾向性、苗頭性的輿情信息以及相關輿情數(shù)據(jù),為網(wǎng)絡輿情關注點評估提供支持。熱點話題是網(wǎng)絡流傳比較廣泛、網(wǎng)民反響較為激烈、產(chǎn)生較大影響的話題,網(wǎng)絡熱點在新媒體環(huán)境下傳播的即時性和廣泛性大幅增長,我們可以通過對話題訪問量、轉發(fā)數(shù)、網(wǎng)頁瀏覽數(shù)等評估網(wǎng)絡輿情中的熱點話題,即時抓住海量網(wǎng)絡信息中的重點,找到真正有價值的信息。當前互聯(lián)網(wǎng)輿情日益復雜,處置要求高、難度大。網(wǎng)民的理性討論與過激言論疊加在一起,人民群眾的正常民意呼吁、反映與敵對分子和別有用心的人蠱惑煽動、惡意炒作交織在一起。在這種形勢下,互聯(lián)網(wǎng)輿情監(jiān)控引導工作是必要的,研究網(wǎng)絡輿情獲取與分析技術并及時應用在輿情監(jiān)控工作中,對于梳理輿情監(jiān)控的思路,抓住紛繁的監(jiān)控工作中的重點,將有限的人力物力用到關鍵的地方,提高工作的針對性和有效性有重要意義。

作者:胡晴云 馬鴻 單位:甘肅警察職業(yè)學院 渭源縣公安局

數(shù)據(jù)分析論文:項目數(shù)據(jù)分析與金融投資論文

一、項目數(shù)據(jù)分析工作對投融資具有重要的意義

無論是政治,還是經(jīng)濟形勢,任何政府、企業(yè)、個人,面對未來進行投融資等項目決策,不經(jīng)過數(shù)據(jù)分析論證就簡單的決定會帶來巨大的危害,已經(jīng)漸漸的被人們認同。所以,只要參與社會政治、經(jīng)濟等活動,進行投融資,期望帶來一定的經(jīng)濟效益,或者社會效益,就必須加強數(shù)據(jù)分析工作,對投融資意向進行評估,為決策提供科學的依據(jù)。

(一)項目數(shù)據(jù)分析

1、什么是項目數(shù)據(jù)分析工作

項目數(shù)據(jù)分析就是研究將經(jīng)濟學理論用數(shù)學模型表示,并應用于項目投資分析的方法論。項目數(shù)據(jù)分析過程是:提出項目(研究機會)、初步可行性研究(市場、技術、資源、環(huán)境研究、效益、風險分析評價)、測算經(jīng)濟效益、評估和決策、可行性研究(市場、技術、資源、環(huán)境研究、效益、風險分析評價)、評估和決策、項目實施。

2、項目數(shù)據(jù)分析工作的內(nèi)容、特點

(1)項目分析工作的內(nèi)容

一般來說,項目數(shù)據(jù)分析的內(nèi)容包括項目的經(jīng)濟效益評價、項目的風險分析和項目的比較選擇。

項目的經(jīng)濟效益評價主要是在假設項目沒有風險情況下的經(jīng)濟效益,主要針對非貼現(xiàn)指標(會計收益率和投資回收期)和貼現(xiàn)指標(凈現(xiàn)值、內(nèi)部收益率、獲利指數(shù)和動態(tài)投資回收期)。

項目的風險分析,主要是進行盈虧平衡分析、敏感性分析和概率分析。

項目的比較選擇,主要是獨立方案、互斥方案和不互斥方案的設計、評估等選擇。

(2)項目分析工作的特點

項目數(shù)據(jù)分析工作是一門邊緣科學,其特點是以定量分析為主要分析手段,通過分析翔實的數(shù)據(jù)進行項目的論證得出定性結論,并以定量數(shù)據(jù)進行說明。顯然,項目數(shù)據(jù)分析,必須通過建立數(shù)學模型的方法進行分析涉及經(jīng)濟學、數(shù)學、統(tǒng)計學和預測學。

(二)什么是投融資

1、項目投融資的概念。

投資是指 “為了在獲得預期的收益而作出的確定的墊支或犧牲的各種經(jīng)濟行為” 。因此,投資并不局限于與基礎建設相關的經(jīng)濟活動,還包括證劵投資、信貸投資和信托投資。

2、項目投資的特點

項目投資的特點是現(xiàn)在投入資金進行經(jīng)濟效益的博弈,通過對該項目的管理進行長期或者未來的收益,不僅具有時間性,而且具有較強的風險性,其本質就是獲得預期的收益。

一些大型的投資項目,通常都由一家專業(yè)的財務顧問公司擔任其項目的財務顧問,財務顧問公司做為資本市場中介于籌資者與投資者之間的中介機構憑借其對市場的了解以及專門的財務分析人才優(yōu)勢,為項目制定嚴格的,科學的,技術的財務計劃以及形成最小的資本結構,并在資產(chǎn)的規(guī)劃和投入過程中做出理性的投資決策。

(三)項目數(shù)據(jù)分析工作對投融資具有重要的意義

1、數(shù)據(jù)分析工作提高了工作效率,增強了管理的科學性。無論是國家政府部門、企事業(yè)單位還是個人,數(shù)據(jù)分析工作都是進行決策和做出工作決定之前的重要環(huán)節(jié),數(shù)據(jù)分析工作的質量高低直接決定著決策的成敗和效果的好壞。

2、越來越多的企業(yè)將選擇擁有中國項目數(shù)據(jù)分析師資質的專業(yè)人士為他們的項目做出科學、合理的分析,以便正確決策項目;越來越多的風險投資機構把中國項目數(shù)據(jù)分析師所出具的項目數(shù)據(jù)分析報告作為其判斷項目是否可行及是否值得投資的重要依據(jù);越來越多的企業(yè)把中國項目數(shù)據(jù)分析師課程作為其中高管理層及決策層培訓計劃的重要內(nèi)容;越來越多的有志之士把中國項目數(shù)據(jù)分析師培訓內(nèi)容作為其職業(yè)生涯發(fā)展中必備的知識體系。

二、從事項目數(shù)據(jù)分析工作的感受

(一)從數(shù)據(jù)分析師的角度,項目數(shù)據(jù)工作需要做到以下幾個方面的服務,才可以為被服務對象提供品質的有價值的投融資報告。

1、真誠服務

所謂真誠服務,主要是因為投融資報告的價值來自于數(shù)據(jù)分析師精湛的業(yè)務能力,細致的數(shù)據(jù)搜集能力、閱讀能力、分析能力和預測能力。無論是競爭性項目、還是基礎性項目,由于數(shù)據(jù)分析工作時一門邊緣科學,需要對真實和翔實的數(shù)據(jù)進行定量或者是定性分析,需要對國家或者國際政策進行審讀,需要對經(jīng)濟形勢進行判斷,需要對項目所屬的行業(yè)進行科學的宏觀把握,因此,項目數(shù)據(jù)分析師在搜集相關數(shù)據(jù),在分析相關數(shù)據(jù)時,在閱讀國家或者國及政策時,在斟酌行業(yè)趨勢時,都需要真誠的付出,否則,閉門造車或者移花接木式的投融資報告,只能是危害客戶,只能給客戶帶來更大的風險,而不是豐厚的收益。

2、真心服務

所謂真心服務,主要是指項目數(shù)據(jù)分析師在服務客戶時,需要站在客戶的角度思考問題。由于項目數(shù)據(jù)分析師,是從屬于某公司,因此從公司利益出發(fā),需要為公司賺取一定的利潤,這部分利潤就來自于數(shù)據(jù)分析師所服務的客戶。從客戶角度思考,實際上客戶委托數(shù)據(jù)分析師針對企業(yè)的項目意向而進行的數(shù)據(jù)分析,實際是希望數(shù)據(jù)分析師提供的項目方案,不僅是可行的,能夠為公司獲得預期利益,而且是風險較小的,可以操作實施的投融資報告。

3、真實服務

所謂真實服務,就是指數(shù)據(jù)分析師在進行項目數(shù)據(jù)分析,通過建立數(shù)學模型的方法進行分析并提出具有科學性的、前瞻性的、科學性的、可操作性的投融資項目預測報告時,需要是真實服務。一般來說,客戶在提出項目設想時,是充滿了憧憬,也具有天真的幻想,那么數(shù)據(jù)分析師提出的可行性報告如果是刻意逢迎客戶的主張,那么對客戶來說將是災難性的打擊。

4、真情服務

所謂真情服務,主要側重于項目付諸于實踐中,項目數(shù)據(jù)分析師跟蹤調(diào)查項目實施的禁毒,以及修正項目風險分析和比較選擇。

(二)從數(shù)據(jù)分析師所服務的客戶角度來看,客戶也需要做到以下幾個方面的工作:

1、信賴數(shù)據(jù)分析師的服務

對數(shù)據(jù)分析師服務的企業(yè)來說,信賴數(shù)據(jù)分析師是必要的。一方面,投融資項目報告,制定嚴格,具有科學性,是理性的投資決策;另一方面,

2、忠誠數(shù)據(jù)分析師的服務

3、誠摯和數(shù)據(jù)分析師的合作

數(shù)據(jù)分析師在進行投融資項目分析時,一方面,客戶的意項是否描述清晰、完整、,是非常重要的,它決定了投融資項目報告的起點和方向;另一方面,企業(yè)的真實經(jīng)營狀況,也對項目報告具有決定性的意義。因此,企業(yè)需要同數(shù)據(jù)分析師進行誠摯的、真誠的合作,否則,項目數(shù)據(jù)報告就存在不可預知的、本可避免的巨大風險。

三、為項目方和投資方案例分析

支持創(chuàng)新 不忘避險—“倍愛康”生物科技項目作為股東類項目,“中投信保”為“倍愛康”提供4筆貸款擔保,累計擔保余額1900萬元,實現(xiàn)保費收入28.5萬元。

“倍愛康”是由冶金自動化研究院投資興辦的高新技術企業(yè),主營磁分離酶聯(lián)免疫檢測系統(tǒng)等醫(yī)療器械和試劑的購銷與制造。企業(yè)貸款用途為引進加拿大的磁酶免系統(tǒng)。但貸款后對該產(chǎn)品的市場推廣未見成效,研發(fā)費用又較高,在銷售無法取得突破的情況下,使得公司的凈利水平偏低。同時,下游各地方醫(yī)院壓款情況嚴重。雖引入的國外先進技術不如預期般成功,企業(yè)仍按時還貸,該項目順利完結。

四、結束語

本文在對項目數(shù)據(jù)分析與投融資進行了簡單的介紹,并分析了數(shù)據(jù)分析對投融資的重要性,在此基礎上簡要說明了數(shù)據(jù)分析與企業(yè)之間的服務關系。本文認為,從項目數(shù)據(jù)分析與企業(yè)投融資決策之間,要相互真誠合作,以避免數(shù)據(jù)分析失真,避免投融資出現(xiàn)過大的風險。

數(shù)據(jù)分析論文:云計算環(huán)境下大數(shù)據(jù)分析論文

1大數(shù)據(jù)處理流程

基本的大數(shù)據(jù)的處理流程可以分成數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋4個階段。首先獲取數(shù)據(jù)源的數(shù)據(jù),因為在數(shù)據(jù)源端的數(shù)據(jù)包含各種各樣的結構,需要使用某種方法將其進行預處理,使數(shù)據(jù)成為某種可以用一種算法分析的統(tǒng)一數(shù)據(jù)格式,接著需要找到這種數(shù)據(jù)分析的算法,將預處理過的數(shù)據(jù)進行算法特定的分析,并將分析的結果用可視化等手段呈現(xiàn)至用戶端。

1.1數(shù)據(jù)采集

大數(shù)據(jù)的采集是整個流程的基礎,隨著互聯(lián)網(wǎng)技術和應用的發(fā)展以及各種終端設備的普及,使得數(shù)據(jù)的生產(chǎn)者范圍越來越大,數(shù)據(jù)的產(chǎn)量也越來越多,數(shù)據(jù)之間的關聯(lián)也越來越復雜,這也是大數(shù)據(jù)中“大”的體現(xiàn),所以需要提高數(shù)據(jù)采集速度和精度要求。

1.2數(shù)據(jù)處理與集成

數(shù)據(jù)的處理與集成主要是對前一步采集到的大量數(shù)據(jù)進行適當?shù)念A處理,包括格式化、去噪以及進一步集成存儲。因為數(shù)據(jù)采集步驟采集到的數(shù)據(jù)各種各樣,其數(shù)據(jù)結構也并不統(tǒng)一,不利于之后的數(shù)據(jù)分析,而且,一些數(shù)據(jù)屬于無效數(shù)據(jù),需要去除,否則會影響數(shù)據(jù)分析的精度和性,所以,需要將數(shù)據(jù)統(tǒng)一格式并且去除無效數(shù)據(jù)。通常會設計一些過濾器來完成這一任務。

1.3數(shù)據(jù)分析

在完成了數(shù)據(jù)的采集和處理后,需要對數(shù)據(jù)進行分析,因為在進行數(shù)據(jù)分析后才能體現(xiàn)所有大數(shù)據(jù)的重要價值。數(shù)據(jù)分析的對象是上一步數(shù)據(jù)的處理與集成后的統(tǒng)一格式數(shù)據(jù),需要根據(jù)所需數(shù)據(jù)的應用需求和價值體現(xiàn)方向對這些原始樣本數(shù)據(jù)進一步地處理和分析。現(xiàn)有的數(shù)據(jù)分析通常指采用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工具對集中存儲的數(shù)據(jù)進行分析,數(shù)據(jù)分析服務與傳統(tǒng)數(shù)據(jù)分析的差別在于其面向的對象不是數(shù)據(jù),而是數(shù)據(jù)服務。

1.4數(shù)據(jù)解釋

數(shù)據(jù)解釋是對大數(shù)據(jù)分析結果的解釋與展現(xiàn),在數(shù)據(jù)處理流程中,數(shù)據(jù)結果的解釋步驟是大數(shù)據(jù)分析的用戶直接面對成果的步驟,傳統(tǒng)的數(shù)據(jù)顯示方式是用文本形式體現(xiàn)的,但是,隨著數(shù)據(jù)量的加大,其分析結果也更復雜,傳統(tǒng)的數(shù)據(jù)顯示方法已經(jīng)不足以滿足數(shù)據(jù)分析結果輸出的需求,因此,數(shù)據(jù)分析企業(yè)會引入“數(shù)據(jù)可視化技術”作為數(shù)據(jù)解釋方式。通過可視化結果分析,可以形象地向用戶展示數(shù)據(jù)分析結果。

2云計算與大數(shù)據(jù)分析的關系

云計算是基于互聯(lián)網(wǎng)的相關服務的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬化的資源,是一種按使用量付費的模式。這種模式提供可用的、便捷的、按需的網(wǎng)絡訪問,進入可配置的計算資源共享池(資源包括網(wǎng)絡、服務器、存儲、應用軟件、服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。目前,國內(nèi)外已經(jīng)有不少成熟的云計算的應用服務。數(shù)據(jù)分析是整個大數(shù)據(jù)處理流程里最核心的部分。數(shù)據(jù)分析是以數(shù)據(jù)的價值分析為目的的活動,而基于大數(shù)據(jù)的數(shù)據(jù)分析通常表現(xiàn)為對已獲取的海量數(shù)據(jù)的分析,其數(shù)據(jù)來源可能是企業(yè)數(shù)據(jù)也可能是企業(yè)數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)的融合。從目前的趨勢來看,云計算是大數(shù)據(jù)的IT基礎,是大數(shù)據(jù)分析的支撐平臺,不斷增長的數(shù)據(jù)量需要性能更高的數(shù)據(jù)分析平臺承載。所以,云計算技術的不斷發(fā)展可以為大數(shù)據(jù)分析提供更為靈活、迅速的部署方案,使得大數(shù)據(jù)分析的結果更加。另一方面,云計算的出現(xiàn)為大數(shù)據(jù)分析提供了擴展性更強,使用成本更低的存儲資源和計算資源,使得中小企業(yè)也可以通過云計算來實現(xiàn)屬于自己的大數(shù)據(jù)分析產(chǎn)品。大數(shù)據(jù)技術本身也是云計算技術的一種延伸。大數(shù)據(jù)技術涵蓋了從數(shù)據(jù)的海量存儲、處理到應用多方面的技術,包括海量分布式文件系統(tǒng)、并行計算框架、數(shù)據(jù)庫、實時流數(shù)據(jù)處理以及智能分析技術,如模式識別、自然語言理解、應用知識庫等等。但是,大數(shù)據(jù)分析要走向云計算還要賴于數(shù)據(jù)通信帶寬的提高和云資源的建設,需要確保原始數(shù)據(jù)能遷移到云環(huán)境以及資源池可以隨需彈性擴展。

3基于云計算環(huán)境的Hadoop

為了給大數(shù)據(jù)處理分析提供一個性能更高、性更好的平臺,研究者基于MapReduce開發(fā)了一個基于云計算環(huán)境的開源平臺Hadoop。Hadoop是一個以MapReduce算法為分布式計算框架,包括分布式文件系統(tǒng)(HDFS)、分布式數(shù)據(jù)庫(Hbase、Cassandra)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),已經(jīng)成為當前流行的大數(shù)據(jù)處理平臺,并被廣泛認可和開發(fā)應用。基于Hadoop,用戶可編寫處理海量數(shù)據(jù)的分布式并行程序,并將其運行于由成百上千個節(jié)點組成的大規(guī)模計算機集群上。

4實例分析

本節(jié)以電信運營商為例,說明在云計算環(huán)境中基于Hadoop的大數(shù)據(jù)分析給大數(shù)據(jù)用戶帶來的價值。當前傳統(tǒng)語音和短信業(yè)務量下滑,智能終端快速增長,移動互聯(lián)網(wǎng)業(yè)務發(fā)展迅速,大數(shù)據(jù)分析可以為運營商帶來新的機會,幫助運營商更好地轉型。本文數(shù)據(jù)分析樣本來自于某運營商的個人語音和數(shù)據(jù)業(yè)務清單,通過Hadoop2.6.0在Ubuntu12.04系統(tǒng)中模擬了一個大數(shù)據(jù)分析平臺來處理獲得的樣本。希望通過對樣本數(shù)據(jù)的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析,實際上樣本數(shù)據(jù)中所蘊含的價值要遠遠大于本文體現(xiàn)的。以上舉例意在說明基于云計算的大數(shù)據(jù)分析可以在數(shù)據(jù)分析上體現(xiàn)出良好的性能,為企業(yè)帶來更豐富更有效率的信息提取、分類,并從中獲益。

5結束語

基于云計算的大數(shù)據(jù)分析已經(jīng)成為解決大數(shù)據(jù)問題的主要手段,云計算環(huán)境中的大數(shù)據(jù)分析平臺部署需要綜合考慮硬件、網(wǎng)絡、軟件等各方面的集成,使大數(shù)據(jù)的海量信息積累體現(xiàn)價值,顯示云計算的性能優(yōu)勢,而沒有云計算技術的支撐也不能進行高效和的大數(shù)據(jù)處理分析。本文通過一個例子來分析了基于云計算的大數(shù)據(jù)分析給企業(yè)帶來的價值,由此可見,大數(shù)據(jù)需要云計算技術的深入挖掘,同時也促進了云計算技術的不斷發(fā)展。

作者:陳清金 張巖 陳存香 單位:聯(lián)通云數(shù)據(jù)有限公司 中國聯(lián)合網(wǎng)絡通信集團有限公司

數(shù)據(jù)分析論文:蚊蟲基因組數(shù)據(jù)分析論文

1蚊蟲的基因組學研究

蚊蟲基因組序列的揭示為其基因的克隆鑒定和功能分析提供了很好的平臺。由于蚊基因組中高度重復序列的廣泛存在,給一些基因特別是非編碼序列的分子克隆帶來了困難,而基因組序列的提供給這一問題的解決帶來了福音。利用已獲得的白紋伊蚊基因組序列,我們已順利克隆了其嗅覺結合蛋白(OBP)和嗅覺受體(OR)基因及其調(diào)控序列,為其嗅覺發(fā)生分子機制的闡明奠定了基礎。Criscione等通過比較斯氏按蚊雌蚊和雄蚊的基因組DNA和RNA樣本的Illumina測序結果,發(fā)現(xiàn)了一個Y染色體特有的基因GUY1。Hall等則發(fā)明了一種更為有效的染色體熵法,該方法的優(yōu)勢是僅利用高通量測序獲得的基因組和轉錄組數(shù)據(jù),而不需要一個固定在染色體上的參考基因組來進行比對。通過比對兩種瘧疾重要傳播媒介斯氏按蚊和岡比亞按蚊的高通量基因組和轉錄組數(shù)據(jù),系統(tǒng)性地在斯氏按蚊和岡比亞按蚊中各發(fā)現(xiàn)了3個Y基因。同時通過對鑒定的Y基因進行生物進化分析,結果表明按蚊的Y染色體進化迅速。隨后,Hall等又使用染色體熵的方法比對了雄性和雌性埃及伊蚊基因組DNA和RNA的Illumina測序數(shù)據(jù),篩選并鑒定了一個新的基因myo-sex。myo-sex基因幾乎只存在于雄蚊的基因組,但是由于基因重組偶爾地能在雌蚊的基因組中發(fā)現(xiàn),具有雄性偏好性,是一個可能具有性別拮抗效應的肌球蛋白重鏈基因。蚊蟲基因組數(shù)據(jù)也為蚊蟲性別決定網(wǎng)絡底部基因dsx的研究提供了依據(jù)。dsx是性別決定網(wǎng)絡中的調(diào)控核心,主要行使決定體細胞和生殖細胞性別的功能,也可調(diào)控中樞神經(jīng)相關基因fruitless,進而調(diào)節(jié)性行為。岡比亞按蚊基因組數(shù)據(jù)之后,Scali等率先鑒定了岡比亞按蚊dsx的性別特異性轉錄本,其橫跨2號染色體85kb的區(qū)域,通過選擇性拼接產(chǎn)生多個外顯子組成的雌性和雄性特異性轉錄本。而隨著2014年斯氏按蚊基因組的,有研究者將Scali等報導的Angdsx與剛的斯氏按蚊基因組和轉錄組進行序列比對,發(fā)現(xiàn)一致性達到了97%,而與岡比亞按蚊基因組及轉錄組序列一致性僅為85%。Scali等在埃及伊蚊中發(fā)現(xiàn)了兩種雌性特異性的可變剪接方式,這不同于黑腹果蠅和岡比亞按蚊具有的特異性DsxF。

2蚊蟲的轉錄組學研究

轉錄組學(transcriptomics)是一個活細胞所能轉錄出來的所有RNA的總和,是研究細胞表型和功能的一個重要手段。傳統(tǒng)上用于轉錄組數(shù)據(jù)獲得和分析的方法主要有基于雜交技術的芯片技術包括cDNA芯片和寡聚核苷酸芯片,但目前使用最普遍的是RNA-seq即轉錄組測序技術。基于Illumina高通量測序平臺的轉錄組測序技術能夠在單核苷酸水平對任意物種的整體轉錄活動進行檢測,在分析轉錄本的結構和表達水平的同時,還能發(fā)現(xiàn)未知轉錄本和稀有轉錄本,地識別可變剪切位點以及cSNP(編碼序列單核苷酸多態(tài)性),提供最的轉錄組信息。相對于傳統(tǒng)的芯片雜交平臺,轉錄組測序無需預先針對已知序列設計探針,即可對任意物種的整體轉錄活動進行檢測,提供更的數(shù)字化信號,更高的檢測通量以及更廣泛的檢測范圍,是目前深入研究轉錄組復雜性的強大工具。巨蚊屬是蚊科中三種不吸血的蚊屬之一,其幼蟲階段以同在小型水體中孳生的白紋伊蚊和埃及伊蚊為食,兩性成蚊均不吸血,以植物汁液和花蜜為食。為了探究巨蚊與其它吸血蚊種在搜尋宿主方面的基因水平上有何差異,國外有學者從巨蚊上分離出觸須、觸角和身體其他部分,分別提取這三部分的RNA,利用RNA-seq技術,將獲得的序列片段從頭組裝,與目前已公布的致倦庫蚊、岡比亞按蚊、埃及伊蚊基因組數(shù)據(jù)進行系統(tǒng)進化樹分析,發(fā)現(xiàn)巨蚊與埃及伊蚊的種屬關系最近,并且在上述四種蚊種中均發(fā)現(xiàn)了編碼氣味分子受體(odorantreceptor,OR)蛋白和離子轉移受體(ionotropicreceptor,IR)蛋白的基因,但值得注意的是,巨蚊受體蛋白的表達量與豐度上較其它蚊種都有所降低[18]。因為這些受體蛋白被認為與吸血昆蟲搜尋宿主氣味分子如CO2有關,所以,巨蚊在長期的生物進化過程中,喪失了原本存在的吸血習性。蚊唾液腺蛋白與其吸血傳病密切相關。國外有學者提取白紋伊蚊雌性成蚊的唾液腺RNA后進行轉錄組和蛋白質組分析,發(fā)現(xiàn)至少有32個基因在雌性成蚊的唾液腺中表達程度或者增高或者降低,另外有17個基因表達在雌性成蚊唾液腺和雄性成蚊中,但不表達在雌性成蚊的其他組織中。通過分析發(fā)現(xiàn),其中大約三分之一的基因功能表現(xiàn)在吸血、消化糖、免疫應答等方面,但是并未發(fā)現(xiàn)其余基因的明確功能,所以非常有可能是長期吸血的過程中進化出的新的功能分子。利用同樣的方法,分析岡比亞按蚊、斯氏按蚊、達氏按蚊、埃及伊蚊、白紋伊蚊、致倦庫蚊和致死按蚊(Anophelesfunestus)的唾液蛋白相關的轉錄組,可以將這些蛋白歸納為:

(1)昆蟲唾液腺中普遍存在的唾液蛋白,包括抗原-5蛋白家族、核酸酶、碳水化合物水解酶等;

(2)在吸血的長角亞目昆蟲(包括白蛉、蚋、蠓等)中豐富表達的D7蛋白;

(3)僅在蚊唾液腺中存在的蛋白,包括30000左右的過敏原蛋白家族(allergenfamily)和一些粘蛋白。很多昆蟲都被發(fā)現(xiàn)具有一種獨特的生物學現(xiàn)象——滯育(diapause)。昆蟲的滯育現(xiàn)象被認為是一種休眠的形式,在昆蟲發(fā)育時遇到不適宜的環(huán)境時,就會馬上由體內(nèi)激素調(diào)節(jié)并控制,暫時停止發(fā)育。白紋伊蚊被發(fā)現(xiàn)同樣具有滯育現(xiàn)象,這是它能適應環(huán)境氣候變化,實現(xiàn)快速擴張入侵的生物學基礎之一。白紋伊蚊的雌性成蚊在每日受到較短時間的光照后,產(chǎn)下的卵不會立即孵化,這便是一種滯育的現(xiàn)象。有趣的是,同是伊蚊屬的埃及伊蚊,其雌性成蚊產(chǎn)的卵如果沒有接觸到水,也不會孵化、發(fā)育,這卻被認為是一種靜息狀態(tài)(quiescence)。這兩種現(xiàn)象的區(qū)別在于,發(fā)生滯育后,白紋伊蚊的卵即使收到合適的外界環(huán)境的刺激,仍需要經(jīng)過一段時間的恢復才會孵化,而處于靜息狀態(tài)的埃及伊蚊的卵,只要受到適宜條件的刺激(如接觸到水),就會馬上進入發(fā)育階段。國外有學者利用RNA-seq技術,對這兩種現(xiàn)象進行分析,發(fā)現(xiàn)這兩種現(xiàn)象在發(fā)育停止的階段,分子水平上是很相近的,不同之處在于滯育現(xiàn)象的早期準備階段和后期修復階段,是其所獨有的。關于滯育現(xiàn)象的早期準備階段,國外學者通過RNA-seq技術,比較滯育前階段(pre-diapause)的白紋伊蚊胚胎與同時期非滯育的白紋伊蚊胚胎基因表達水平上的差異,發(fā)現(xiàn)前者在基因表達模式上有非常大的改變。目前,已有學者歸納和總結出了一套利用RNA-seq技術研究白紋伊蚊滯育現(xiàn)象的方法,為今后更、徹底地認識白紋伊蚊以及其他媒介昆蟲的滯育現(xiàn)象提供了堅實的基礎。利用RNA-seq技術,我們對白紋伊蚊不同發(fā)育時期(卵、幼蟲、蛹、雄蚊、雌蚊)和感染登革病毒前后的轉錄組進行了分析。對比分析不同發(fā)育階段特別是雌雄蚊的基因表達譜,我們找到了在胚胎早期對性別分化具有重要作用的候選基因和對雌蚊吸血傳病相關的性別偏愛基因。對比分析登革病毒感染與否的白紋伊蚊轉錄組,我們發(fā)現(xiàn)了可能與蚊媒與病原相互作用有關的免疫分子(未發(fā)表結果)。目前,針對這些候選基因的進一步功能分析正在進行之中。另外,對白紋伊蚊抗藥品系和敏感品系的RNA-seq對比分析也在進行中,這對于其抗藥機制的闡明非常重要。

3蚊蟲的小RNA組學研究

小RNA(smallRNAs)主要指長度在18~30nt的一類非編碼RNA(ncRNAs),在真核生物中,具有基因表達調(diào)控功能的小RNA主要有微小RNA(microRNAs,miRNAs)、內(nèi)源小干擾RNA(endo-siRNAs)和piwi干擾RNA(piRNAs)。piRNA長度集中在26-31nt,目前只在動物的生殖系細胞及干細胞中被發(fā)現(xiàn),其主要功能是參與轉座子的沉默。miRNAs和endo-siRNAs長度主要集中在20~24nt。miRNAs在動植物和微生物中都普遍存在,據(jù)估計一個物種中約1/3的基因會受到miRNA的調(diào)控,大量的實驗也表明miRNAs參與了諸多生命過程的調(diào)控,例如細胞周期、細胞分化、組織器官的發(fā)生、營養(yǎng)代謝、信號途徑以及對外界生物的非生物的環(huán)境的反應;同時,miRNAs在生產(chǎn)實踐與臨床治療上也具有很大的應用前景。以往用于尋找miRNAs等小RNA的方法有實驗克隆法、計算機預測法。克隆法可以直接用于鑒定新小RNA,是初期發(fā)掘小RNA的常用方法,不足之處是實驗周期較長,對低表達的小RNA的發(fā)現(xiàn)能力十分有限。計算機預測法多是針對某一已知的小RNA特征設計算法,從全基因組或EST數(shù)據(jù)庫中快速發(fā)掘大量潛在的小RNA,一定程度上彌補了克隆法的缺點,然而,預測的小RNA最終還需要實驗證明,同時計算機預測法對新類型小RNA的發(fā)掘能力十分有限。隨著第二代高通量測序技術的問世,小RNA高通量測序(smallRNA-Seq)技術開始逐漸取代原始的小RNA發(fā)掘法方法,該法具有速度快、成本低、覆蓋度深等多方面的優(yōu)點,對鑒定與發(fā)現(xiàn)生命體內(nèi)的小分子RNA及其功能與機理研究起極大的推動作用。全世界有超過3000種蚊蟲,目前為止僅有岡比亞按蚊、斯氏按蚊、埃及伊蚊、致倦庫蚊以及白紋伊蚊鑒定出miRNA。一些miRNA的文庫和功能分析表明miRNA對蚊蟲的卵巢發(fā)育和吸血后的血液消化具有調(diào)節(jié)作用。病毒感染可以對宿主細胞miRNA的表達水平產(chǎn)生深遠影響,可能與宿主抗病毒機制及病毒入侵后改變細胞內(nèi)環(huán)境有關,雌蚊中miRNA的表達模式會隨著病原體的感染而發(fā)生變化。Hussain等對登革病毒(DENV)編碼的miRNA或病毒小RNA(vsRNAs)的進行了功能研究,他們發(fā)現(xiàn)6個vsRNAs能通過作用于病毒基因組RNA莖環(huán)結構中的5''''和3''''的UTR區(qū),顯著增加病毒復制。中腸屏障是蚊蟲防止病原體入侵而建立的重要屏障,Alexander等的研究發(fā)現(xiàn)miR-1174僅在伊蚊和按蚊的中腸中表達,且雌蚊吸血后其表達量明顯上調(diào);而當miR-1174表達下調(diào)后,蚊子吸血率明顯降低,壽命明顯縮短。作者認為:蚊特異性miRNAs,特別是miR-1174具有重要的生物學意義,它們可能影響人們今后控制蚊蟲的策略。我們對白紋伊蚊不同發(fā)育時期(卵、幼蟲、蛹、雄蚊、雌蚊、吸血后雌蚊)的小RNA進行了深度測序分析。結果在白紋伊蚊中篩選出119條已知的miRNA基因,確定了15條novelmiRNA基因,其中11條是伊蚊特異的,并且觀察到許多miRNA呈現(xiàn)期特異表達的特點。經(jīng)過實驗驗證,miR-286、miR-2492和miR-1891分別在白紋伊蚊的卵、幼蟲和成蟲期特異高效表達,敲低/敲除這些miRNA會對蚊蟲的生長發(fā)育造成顯著影響。這些研究為新型生物殺蟲劑的研發(fā)提供了靶標。我們還對感染登革病毒前后白紋伊蚊的細胞和成蟲的小RNA進行了深度測序分析。結果在感染登革病毒的白紋伊蚊中找到了10條表達上調(diào)的miRNA和11條表達下調(diào)的miRNA。通過對這些差顯表達miRNA的功能分析,發(fā)現(xiàn)miR-252通過與E蛋白3''''-UTR區(qū)域的結合,對登革病毒的復制起到抑制作用;而miR-281則通過與E蛋白5''''-UTR區(qū)域的結合,對登革病毒的復制具有促進作用。這些研究為抗登革病毒藥物的設計和研發(fā)提供了線索。piRNA來源于轉座元件、基因間隔區(qū)和一些編碼蛋白質基因的3''''UTRs,對維持基因的完整性和穩(wěn)定性有一定作用,但最近的研究證明它在抗病毒免疫中也有較大作用。Schnettler等的研究證明:對蚊蟲細胞感染蟲媒病毒可以引發(fā)piRNA路徑,而敲除piRNA蛋白質會使病毒產(chǎn)生增多。Castellano等確定了多個24-30nt的Piwi相互作用RNAs基因組簇,通過比對到轉座元件和蛋白質編碼基因的3''''UTRs,發(fā)現(xiàn)許多TEs和一些內(nèi)源性基因的3''''UTR產(chǎn)生大量具有piRNA樣特征的29-nt小RNAs峰。此外,來自岡比亞按蚊和黑腹果蠅TEs的正義和反義piRNAs揭示了piRNA序列偏差的新特征。弗吉尼亞理工大學的研究人員最近在庫蚊中發(fā)現(xiàn)了一種新型的抗病毒途徑,Morazzani等在無dicer-2和無突變的蚊細胞中進行的實驗表明,病毒產(chǎn)生的piRNA樣小RNA可以在病毒產(chǎn)生siRNA的過程中調(diào)節(jié)病毒感染的發(fā)生。同時也表明新的piRNA途徑存在于蚊媒的體細胞中并且可能發(fā)揮著比siRNA途徑更寬泛的的抗病毒作用,顯示出其為強大的免疫系統(tǒng)。因此,理解病毒如何繞開蚊蟲的雙重抗病毒反應對于科學家來說是越來越有趣的挑戰(zhàn)。

4結語

隨著新型測序技術和生物信息學分析技術的不斷發(fā)展,生物醫(yī)學研究也迎來了大數(shù)據(jù)分析時代。近年蚊蟲組學的快速發(fā)展,給其媒介生物學、入侵擴散的機制研究等提供了廣闊的、深遠的大數(shù)據(jù)分析平臺,也必將為蚊蟲的媒介控制和傳播疾病的防制帶來更多的機遇和指引。

作者:吳恙謝李華劉培文李小聰閆桂云陳曉光單位:南方醫(yī)科大學公共衛(wèi)生與熱帶醫(yī)學學院病原生物學系

數(shù)據(jù)分析論文:多維數(shù)據(jù)分析下電力營銷論文

1電力營銷現(xiàn)狀

1.1壟斷

世界多數(shù)大國在近一百多年來在供電上采取的模式是集發(fā)電、輸電、配電為一身的壟斷模式。國家在電力供應上大多數(shù)或全部由國家壟斷經(jīng)營,廣大電力用戶就是消費者。這種壟斷經(jīng)營在短時間內(nèi)使電力工業(yè)聚集了大量的資金,電力工業(yè)持續(xù)發(fā)展,同時避免了重復設施的出現(xiàn),為電網(wǎng)的統(tǒng)一規(guī)劃和建設提供了有力的支持。

1.2發(fā)電競爭

發(fā)電競爭模式,競爭主要體現(xiàn)在發(fā)電環(huán)節(jié),輸電和配電仍然采取壟斷經(jīng)營。在電力經(jīng)營過程中對電力市場進行開放,引入發(fā)電企業(yè),在市場中由壟斷企業(yè)對發(fā)電企業(yè)生產(chǎn)的電力進行買斷,然后由壟斷企業(yè)統(tǒng)一賣給電力用戶,這種供電模式的引入加大了市場中電力的供給量。

1.3電力轉運

電力運轉模式就是合理的將發(fā)電、輸電、配電三個過程進行分離,每個發(fā)電廠都獨立成為一個企業(yè),各個發(fā)電廠之間采取公平競爭。市場中的用電大戶,可以低價從電力企業(yè)直接購買電力,利用統(tǒng)一電網(wǎng)實現(xiàn)電力運轉。在電力運轉模式中,部分競爭市場、壟斷經(jīng)營市場和競爭市場同時存在。

1.4配電網(wǎng)開放

配電網(wǎng)開放模式的主要特點是:發(fā)電、輸電、配電三個環(huán)節(jié)適當分離,三個環(huán)節(jié)都各自成為獨立的經(jīng)營體系,三者之間存在電力買賣關系。這種經(jīng)營模式將發(fā)電、輸電、配電三者打破了傳統(tǒng)的電力運營管理模式,電力市場形成了多種商家相互競爭的形式,這不僅增加了發(fā)電企業(yè)之間的相互競爭,客戶可以通過自己的需求來選取適當?shù)陌l(fā)電商,而且電力消費者和生產(chǎn)者之間形成了一種真正的買賣格局,從而為電力顯示商品特性提供了便利條件。

2企業(yè)多維數(shù)據(jù)分析具有的特點

2.1多維性

多維數(shù)據(jù)分析的一個最重要特點就是多維性。多維性不僅體現(xiàn)了人們在觀察世界時的多角度,同時也體現(xiàn)了多層次觀察。例如,在銷售量數(shù)據(jù)的查看上可以從時間維入手,同時還可以從年、季、月等時間層次上進行查看。對數(shù)據(jù)進行分層查看,不僅符合事物的客觀運行規(guī)律,而且也能讓用戶地掌握數(shù)據(jù)情況。

2.2實時性

實時性不僅滿足了用戶在時間上對信息的需求,而且可以快速查找多維數(shù)據(jù)的分析結果,同時實現(xiàn)了實時的接受用戶所反饋的數(shù)據(jù)。

2.3開放性

多維數(shù)據(jù)分析支持多數(shù)據(jù)源和系統(tǒng)平臺。因此,在實際工作中,不論數(shù)據(jù)存儲量有多大,存儲在何處,采取何種方式對數(shù)據(jù)進行存儲,都可以及時獲取到存儲的數(shù)據(jù),并且可以以多種方式將分析結果提供給不通過平臺上的客戶使用。

2.4可分析性

可以從不同的角度對數(shù)據(jù)的較大值、平均值、最小值、匯總進行記錄和處理,將龐大的有用數(shù)據(jù)提供給客戶,此外還具有數(shù)據(jù)分析和數(shù)據(jù)查詢等能力。

2.5安全性

確保信息的安全,避免受到欺詐,對用戶進行分級管理,數(shù)據(jù)分析過程中,對于數(shù)據(jù)分析結果只能提供給相應的用戶。如果在實際工作中,存在多個用戶共同應用同一個分析時,應當對客戶的級別進行合理劃分,依據(jù)客戶所處的安全級別,允許客戶查看對應層次的信息。

3電力營銷多維數(shù)據(jù)分析過程

(1)依據(jù)決策者和企業(yè)業(yè)務在信息上的需求,對多維數(shù)據(jù)分析主題進行確定,在進行多位數(shù)據(jù)分析時,依據(jù)面向主題分析獲取信息,從而實現(xiàn)為決策者提供信息的目的。

(2)收集數(shù)據(jù),目前供電企業(yè)信息系統(tǒng)收集了電量的業(yè)務數(shù)據(jù),這些數(shù)據(jù)都存儲在各個供電企業(yè)的信息系統(tǒng)中,為了使其能夠更好的為企業(yè)所用,應當建立數(shù)據(jù)庫服務器,采集供電企業(yè)中數(shù)據(jù)。多維數(shù)據(jù)分析在電力決策的實際應用中,數(shù)據(jù)采集工作需要依據(jù)多維數(shù)據(jù)分析主體進行,要對數(shù)據(jù)庫系統(tǒng)進行確認,并且在構建面向分析時選擇數(shù)據(jù)庫,從數(shù)據(jù)庫系統(tǒng)中抽取、轉換企業(yè)需要的數(shù)據(jù)。數(shù)據(jù)倉庫是集成的、面向主題的且在實際運行過程中容易因為時間變化而發(fā)生改變的一個數(shù)據(jù)集合。數(shù)據(jù)倉庫是企業(yè)為數(shù)據(jù)分析工作而設計的,利用數(shù)據(jù)倉庫可以為多維數(shù)據(jù)分析提供更加穩(wěn)定且具有針對性的數(shù)據(jù),目前許多電氣企業(yè)都構建了數(shù)據(jù)服務器。

(3)多維數(shù)據(jù)模型的建立,多維數(shù)據(jù)分析需要以多維數(shù)據(jù)模型為基礎,從哪些角度對多維數(shù)據(jù)模型進行觀察,對哪些數(shù)據(jù)進行分析,可以通過多維數(shù)據(jù)分析決定哪些數(shù)據(jù)需要仔細分析歷史數(shù)據(jù)結構來獲得,從獲取的數(shù)據(jù)中找到有用的數(shù)據(jù)構建成適當?shù)亩攘俊⒕S度從而構成高效的多維數(shù)據(jù)模型。

(4)設計人員依據(jù)現(xiàn)有的多維數(shù)據(jù)模型,選取適當?shù)亩攘亢途S度,結合報表利用適當?shù)慕y(tǒng)計方法,通過圖表直觀地展現(xiàn)企業(yè)的大量了歷史數(shù)據(jù)。

(5)信息,通過靈活的方式將電力企業(yè)想要的相關信息直接提供給決策者。

4分析電力影響數(shù)據(jù)主題

在電力營銷決策中,每一個主體都對應一個具體的分析,表示一種營銷決策者在工作中需要掌握的信息。本文在研究上將分析主體分為用戶情況、購電情況、電價情況、電費回收、設備資產(chǎn)情況等,并對較大的主體進行了進一步劃分,針對電力營銷的數(shù)據(jù)分析,應當從宏觀到微觀,從多個角度對電氣企業(yè)的數(shù)據(jù)進行科學分析,為電力企業(yè)的各級領導者提供決策信息。因此,在分析上還需要確定分析層次和分析角度。

5結論

綜上所述,近年來電力營銷工作得到了一定的發(fā)展,但在管理過程中,同一營銷管理因為時間、地點上的差異,管理者通過不同的角度觀看信息,信息的呈現(xiàn)方式都會所差別。同時因為多維數(shù)據(jù)的存儲、分析不斷的發(fā)展,多維數(shù)據(jù)分析在電力營銷決策中的應用是一個漫長的過程,因此需要依據(jù)需求的變化進行不斷地改進和完善。

作者:劉曉華柏青單位:國家電網(wǎng)新疆電力公司

數(shù)據(jù)分析論文:固網(wǎng)漏話用戶數(shù)據(jù)分析論文

1數(shù)據(jù)挖掘和知識獲取

數(shù)據(jù)挖掘是在數(shù)據(jù)庫中進行知識發(fā)現(xiàn)的重要方法,是從大量的表面數(shù)據(jù)中提取隱藏在其中的知識的過程。近年來,該技術發(fā)展迅速,已應用到各個領域。本文主要介紹固話漏話用戶數(shù)據(jù)挖掘和分析。

2數(shù)據(jù)挖掘技術應用于電信用戶數(shù)據(jù)研究

2.1固網(wǎng)用戶數(shù)據(jù)的組成和結構

對于企業(yè)來說,大量的用戶數(shù)據(jù)不僅有利于客戶關系管理(CRM),同時也是獲得用戶知識的源泉。從用戶知識發(fā)現(xiàn)的過程中可以看到,用戶數(shù)據(jù)的質量會對知識發(fā)現(xiàn)的結果產(chǎn)生直接的影響,所以用戶數(shù)據(jù)準備也是一項很重要的步驟。從商業(yè)系統(tǒng)中提取出高質量的用戶數(shù)據(jù)就成為一項最主要的工作。固網(wǎng)企業(yè)的用戶數(shù)據(jù)包括用戶基本信息、用戶賬單信息以及客服信息。數(shù)據(jù)倉庫就是根據(jù)這種方式來組織的。

2.2知識發(fā)現(xiàn)的方法和過程

用戶知識發(fā)現(xiàn)概括如下:根據(jù)提出的商業(yè)目標,分析大量的用戶數(shù)據(jù),找出隱藏的和未知的規(guī)律或者豐富已知的規(guī)律,進而提出模型;要將數(shù)據(jù)挖掘和分析的結果轉化成有商業(yè)意義的方法,然后采取進一步的行動。用戶知識發(fā)現(xiàn)必須遵循以下幾個步驟:商業(yè)理解,數(shù)據(jù)理解,數(shù)據(jù)準備,分類模型,評估應用。

2.3數(shù)據(jù)挖掘建立用戶分類模型

近年來,“以客戶為中心”的電信市場開始強調(diào)為不同用戶提供個性化服務,其前提條件就是用戶分類。這也說明了過去的消費行為也預示了未來的消費傾向。

(1)商業(yè)理解

對用戶的理解不僅是理解電信市場的開始,也是理解客戶關系管理的開始。在電信企業(yè)中對用戶的理解包括:用戶種類,不同類中用戶的本質屬性區(qū)別,用戶偏好,不同類別之間的用戶如何通信等。

(2)用戶數(shù)據(jù)準備

對用戶分類的研究主要是從用戶屬性中得到用戶特征和行為習慣。主要數(shù)據(jù)來源于用戶賬單信息,同時也需要從商業(yè)系統(tǒng)中得到一些用戶的基本屬性信息。

(3)用戶分類模型

本文使用聚類分析對用戶進行細分以建立分類模型。聚類分析是把大量數(shù)據(jù)點的集合根據(jù)較大化類內(nèi)相似性、最小化類間相似性的原則進行聚類或分組,使得每個類中的數(shù)據(jù)之間較大限度地相似、而不同類中的數(shù)據(jù)之間較大限度地不同。

3固網(wǎng)漏話用戶數(shù)據(jù)分析

3.1關于固網(wǎng)漏話用戶數(shù)據(jù)分析的商業(yè)理解

通過各種渠道調(diào)查,對固網(wǎng)漏話用戶數(shù)據(jù)分析的目標可以概括為以下幾點:

(1)對用戶通話次數(shù)、時間段等分析,找出特征,以此來尋找目標用戶;

(2)對用戶開通漏話保護業(yè)務前后的ARPU值分析比較,分析收益的對比;

(3)對目標用戶數(shù)據(jù)分析,從用戶分類的角度來管理,設計針對性的服務,提升用戶滿意度。

3.2系統(tǒng)用戶數(shù)據(jù)準備

數(shù)據(jù)準備的過程:明確目標;制定計劃;分析變量的獲取;數(shù)據(jù)收集和獲取;數(shù)據(jù)集成。根據(jù)當前客戶關系管理基本狀況和數(shù)據(jù)挖掘的目的,涉及到的人口屬性變量有:性別、年齡、住址、用戶職業(yè)、婚否、學歷、薪資等。用戶分類結束之后,再使用描述變量來進行分析說明。本文選用某市電信公司運營支持系統(tǒng)和經(jīng)營分析系統(tǒng)的數(shù)據(jù),從中選取了基本客戶基本信息表、客戶詳細話表、賬單及繳費信息表、產(chǎn)品信息表、業(yè)務使用清單等原始數(shù)據(jù)。數(shù)據(jù)挖掘工具選擇SPSSClementine。在使用該工具進行挖掘之前,需要對數(shù)據(jù)進行清洗:

(1)刪掉不滿足要求的數(shù)據(jù):選擇普通的用戶;選擇狀態(tài)正常的用戶;選擇入網(wǎng)時間較長的用戶,使數(shù)據(jù)有完整的用戶周期;

(2)去掉異常數(shù)據(jù):比如用于測試的號碼;

(3)去掉極端值:不具備普遍性的極值容易產(chǎn)生噪聲。

3.3固網(wǎng)漏話用戶數(shù)據(jù)分析結果

考慮到不同分類建立的有效性和簡便性,以及固話用戶和數(shù)據(jù)源的特點,本文采用常見的K-means算法,其高性、高精準性以及低復雜度使其成為主流的聚類算法。本文選用SPSSClementine作為數(shù)據(jù)挖掘工具進行K-means聚類分析。獲取原始數(shù)據(jù)并進行預處理之后,選擇參與聚類的細分變量,輸入簇的個數(shù)k,選擇k=7,然后點擊“聚類”按鈕,使用K-means算法對固網(wǎng)漏話用戶數(shù)據(jù)進行聚類。經(jīng)過正常值選擇、極值處理等一系列的數(shù)據(jù)清洗工作,用于研究的記錄有251284條。

3.4分析結果和解釋

93%的遇忙話務都出現(xiàn)在8∶00~18∶00的工作時段,這說明該時段遇忙話務較多,話務量流失嚴重,特別需要遇忙話務的解決方法。而這一時間段遇忙話務量最多的就是政企用戶,這些話務量流失對政企用戶將造成巨大的損失:30000政企用戶一個月遇忙話務損失達到260萬次,本網(wǎng)超過120萬次,每個月預計損失20萬;以電信中等發(fā)達省份為例:符合條件的政企高端用戶約為60萬;每年度損失的潛在業(yè)務收入為50000萬。經(jīng)過分析,得到該市各地區(qū)已開通和未開通漏話保護業(yè)務的用戶分布,如圖4所示。C區(qū)屬于政務新區(qū),未開通漏話業(yè)務的用戶較多,而F區(qū)屬于工業(yè)園區(qū),企業(yè)較多,很多用戶已開通漏話保護業(yè)務,但是還有大量用戶未開通該業(yè)務,所以C區(qū)和F區(qū)應該作為該業(yè)務的重點推廣地區(qū)。綜上分析,固網(wǎng)漏話業(yè)務是一個非常有潛力的業(yè)務,解決漏話問題是提高用戶滿意度和忠誠度的重要途徑。根據(jù)上文的分析,在8∶00~18∶00時間段,用戶遇忙話務量非常多,在這段時間內(nèi),企業(yè)需要更多的漏話接入服務器,而在其他時間段可以減少接入服務器以節(jié)約成本。而在不同的地區(qū),用戶數(shù)量和精準用戶的數(shù)量也不同,應該選擇精準用戶較為集中的地區(qū)優(yōu)先推廣漏話保護業(yè)務。由于精準高端用戶帶來的收益遠遠超過普通用戶,所以要對經(jīng)過篩選的精準用戶采取針對性措施,比如在C區(qū)和F區(qū)大力宣傳,以各種形式讓精準客戶看到該業(yè)務帶來的收益,還可以電話推廣為精準用戶提供信息。

4結論

本文將聚類挖掘方法應用到固網(wǎng)漏話用戶數(shù)據(jù)分析中,采用SPSSClementine工具進行數(shù)據(jù)挖掘。漏話保護系統(tǒng)主要針對政企高端用戶提出,主要目的是為了提高通話接通率,以提高政企用戶的效益,達到用戶和運營商的共贏。而對用戶數(shù)據(jù)的分析,是為了運營商可以更好地服務于政企客戶,為企業(yè)帶來更多的利益,從根本上改善固網(wǎng)漏話問題。

作者:孫駿單位:南京郵電大學

數(shù)據(jù)分析論文:多層次數(shù)據(jù)分析論文

1海量數(shù)據(jù)處理流程

1.1數(shù)據(jù)采集

數(shù)據(jù)的采集是指利用傳感器、社交網(wǎng)絡以及移動互聯(lián)網(wǎng)等方式獲得的各種類型的結構化、半結構化以及非結構化的海量數(shù)據(jù),這是一切數(shù)據(jù)分析的基礎。數(shù)據(jù)的采集需要解決分布式高速高數(shù)據(jù)的采集、高速數(shù)據(jù)全映像等數(shù)據(jù)收集技術。還要設計質量評估模型,開發(fā)數(shù)據(jù)質量技術。而數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng),實現(xiàn)對海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監(jiān)控、初步處理和管理等。

1.2數(shù)據(jù)預處理

數(shù)據(jù)采集的過程本身就有會有很多數(shù)據(jù)庫,但如果想達到有效分析海量數(shù)據(jù)的目的,就必將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,而且在導入基礎上做一些簡單的辨析、抽取、清洗等操作。

①抽取:因為我們通過各種途徑獲取的數(shù)據(jù)可能存在多種結構和類型,而數(shù)據(jù)抽取過程可以有效地將這些復雜的數(shù)據(jù)轉換為單一的結構或者便于處理的類型。以達到快速分析處理的目的。

②清洗:對于海量數(shù)據(jù)而言,數(shù)據(jù)所處的價值層次不一樣,就必然存在由于價值低而導致開發(fā)成本偏大的數(shù)據(jù),還有與數(shù)據(jù)分析毫無關系的數(shù)據(jù),而另一些數(shù)據(jù)則是錯誤的干擾項,所以對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)是十分重要的步驟。

1.3數(shù)據(jù)的存儲與管理

當我們采集數(shù)據(jù)完成后,就需要將其存儲起來統(tǒng)一管理,主要途徑就是建立相應的數(shù)據(jù)庫,進行統(tǒng)一管理和調(diào)用。在此基礎上,需要解決大數(shù)據(jù)的可存儲、可表示、可處理、性及有效傳輸?shù)葞讉€關鍵問題。還需開發(fā)的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲、計算融入存儲、數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲技術;以及分布式非關系型大數(shù)據(jù)管理與處理技術、異構數(shù)據(jù)的數(shù)據(jù)融合技術、數(shù)據(jù)組織技術、研究大數(shù)據(jù)建模技術、索引、移動、備份、復制、可視化技術。

1.4數(shù)據(jù)的統(tǒng)計分析

一般情況下,統(tǒng)計與分析主要就是利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。

1.5數(shù)據(jù)分析與挖掘

所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫中的大量不的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,揭示出隱含的、先前未知的并有潛在價值的信息的過程。與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般不會有預先設計好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型的算法有用于聚類的K-means、用于統(tǒng)計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。

2數(shù)據(jù)分析的8個層次

2.1標準化報告(StandardReports)

標準化報告作為數(shù)據(jù)分析的及時個層次,要求相對較低,主要是借助相應的統(tǒng)計工具對數(shù)據(jù)進行歸納總結,得出包含主要參數(shù)指標的標準化報告。類似于一個銷售企業(yè)每月或者每季度的財務報表。

2.2即席查詢(AdHocReports)

用戶可以通過自己的需求,靈活地選擇查詢條件,系統(tǒng)就能夠根據(jù)用戶的需求選擇生成相應的統(tǒng)計報表。即席查詢與普通應用查詢較大的不同是普通的應用查詢是定制開發(fā)的,而即席查詢所有的查詢條件都是用戶自己定義的。在面向高層的數(shù)據(jù)分析軟件中,用戶隨意添加想要查詢的指標按鈕再加上相應的限制條件,就可以立即生成可視化的統(tǒng)計結果,不僅一目了然,而且沒有任何操作難度。

2.3多維分析(QueryDrilldown)

多維分析是指對具有多個維度和指標所組成的數(shù)據(jù)模型進行的可視化分析手段的統(tǒng)稱,常用的分析方式包括:下鉆、上卷、切片(切塊)、旋轉等各種分析操作。以便剖析數(shù)據(jù),使分析者、決策者能從多個角度多個側面觀察數(shù)據(jù),從而深入了解包含在數(shù)據(jù)中的信息和內(nèi)涵。上卷是在數(shù)據(jù)立方體中執(zhí)行聚集操作,通過在維級別中上升或通過消除某個或某些維來觀察更概括的數(shù)據(jù)。上卷的另外一種情況是通過消除一個或者多個維來觀察更加概括的數(shù)據(jù)。下鉆是在維級別中下降或者通過引入某個或者某些維來更細致地觀察數(shù)據(jù)。切片是在給定的數(shù)據(jù)立方體一個維上進行的選擇操作,切片的結果是得到了一個二維的平面數(shù)據(jù)(切塊是在給定的數(shù)據(jù)立方體的兩個或者多個維上進行選擇操作,而切塊的結果是得到了一個子立方塊)。轉軸相對比較簡單,就是改變維的方向。

2.4儀表盤與模擬分析(Alerts)

儀表盤用于監(jiān)控一些關鍵指標。模擬分析是由操作者動態(tài)地加以調(diào)節(jié)的控件(如滑動塊、可調(diào)旋鈕、選擇框等),來控制管理決策模型行為某些參數(shù)。當操作者通過控制面板對模型中的參數(shù)值或變量值進行調(diào)節(jié)時,圖形中的曲線、柱形組或分析指標等要素就會發(fā)生相應的運動,而這種運動正好反映了該參數(shù)的變化對模型行為的影響,如果這種變動引起了模型中解或其他關鍵數(shù)字的變化,能夠隨時將關于這種變化的結論正確地顯示出來。

2.5統(tǒng)計分析(StatisticallyAnalysis)

我們知道概率論是數(shù)理統(tǒng)計的基礎,數(shù)理統(tǒng)計是在其基礎上研究隨機變量,并應用概率論的知識做出合理的估計、推斷與預測。概率論中討論的各種分布在數(shù)理統(tǒng)計中作為統(tǒng)計模型來分析處理帶有隨機誤差的數(shù)據(jù)。典型的數(shù)理統(tǒng)計方法有參數(shù)估計、假設檢驗和回歸分析。而統(tǒng)計分析主要是對用戶所關注的問題進行推斷、預測和控制的分析方法。具體可以分為以下三方面:

①描述統(tǒng)計:主要是集中趨勢、離散程度、分布形狀等,統(tǒng)計圖(方圖、箱線圖、散點圖等);

②數(shù)據(jù)的分類匯總;

③基礎統(tǒng)計分析:方差分析、時間序列分析、相關和回歸分析、(主成分)因子分析等統(tǒng)計分析方法。

2.6預測(Forecasting)

在統(tǒng)計分析和數(shù)據(jù)挖掘領域,對未來的預測已經(jīng)有了很多數(shù)學模型以及解決具體問題的相關算法。其核心思想便是從歷史數(shù)據(jù)中找出數(shù)據(jù)的發(fā)展模式,然后以這些模式為支點,就可以對未來進行預測。

2.7預測模型(PredictiveModeling)

隨著數(shù)據(jù)分析學家對數(shù)據(jù)挖掘技術的不斷探索,出現(xiàn)了很多預測模型以及與之相對應的算法,但是很難確定某個模型是最的,因為不同的領域,不同的條件,對應的預測模型是不一樣的,所以沒有統(tǒng)一化的模型,只存在有選擇性的模型。下面介紹幾種典型的預測模型。

①回歸模型:回歸模型可以分為一元線性回歸模型和多元線性回歸模型。一元線性回歸模型可表示為yt=b0+b1xt+ut,該式表示變量yt和xt之間的真實關系。其中yt稱作被解釋變量(或相依變量、因變量),xt稱作解釋變量(或獨立變量、自變量),ut稱作隨機誤差項,b0稱作常數(shù)項(截距項),b1稱作回歸系數(shù)。b0+b1xt是非隨機部分,ut是隨機部分。而在很多情況下,回歸模型必包含兩個或更多自變量才能夠適應地描述經(jīng)濟現(xiàn)象各相關量之間的聯(lián)系,這就是多元線性回歸模型需要解決的問題,其一般形式為:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是這個多元回歸問題的m個自變量,b1、b2、…、bm是回歸方程對應于各自變量的系數(shù),又稱偏回歸系數(shù)。

②貝葉斯網(wǎng)絡:貝葉斯網(wǎng)絡是基于概率推理的數(shù)學模型,而概率推理是通過一些產(chǎn)量的信息來獲取其他概率信息的過程。貝葉斯網(wǎng)絡會建立一個有向無環(huán)圖和一個概率表集合,有向無環(huán)圖中的每一個節(jié)點便是一個隨機變量,而有向邊表示隨機變量間的條件依賴,條件概率表中的每一個元素對應有向無環(huán)圖中的節(jié)點,存儲此節(jié)點對其所有直接前驅節(jié)點的條件概率。貝葉斯網(wǎng)絡是為了解決不定性與不完整性問題而提出的,在多個領域中獲得廣泛應用。

③基于時間序列分析的指數(shù)平滑模型在時間序列分析中指數(shù)平滑模型是最靈活和的方法,在經(jīng)濟領域也被證明是最有效的預測模型。在不同的時間序列下,指數(shù)平滑模型可以分為簡單指數(shù)平滑法、帶有趨勢調(diào)整的指數(shù)平滑法、帶有阻尼趨勢的指數(shù)平滑法、簡單季節(jié)指數(shù)平滑法、帶有趨勢和季節(jié)調(diào)整的指數(shù)平滑法五種不復雜度的模型。

2.8化

(Optimization)因為優(yōu)化問題往往可以帶來巨額的收益,通過一系列可行的優(yōu)化,可以使收益得到顯著提高。所謂化就是從有限或者無限種可行的方案中選取的方案。如果可以通過簡單的評判,就可以確定方案那是好的。但是事實不會那么簡單,所以優(yōu)化技術已經(jīng)發(fā)展出了一系列的理論來解決實際問題。其常用的優(yōu)化技術為:

①線性規(guī)劃:當目標函數(shù)與約束函數(shù)都是線性函數(shù)時,就是一個線性規(guī)劃問題。而當同時滿足約束函數(shù)和目標函數(shù)時,則可以認為是解。

②整數(shù)規(guī)劃:要求決策變量取整數(shù)值的數(shù)學規(guī)劃。

③多目標規(guī)劃:指衡量一個決策優(yōu)劣的標準不止一個,也就是有多目標函數(shù)。

④動態(tài)規(guī)劃:將一個復雜的問題劃分為多個階段,逐段求解,最終求出全局解。

3用Excel實現(xiàn)簡單的數(shù)據(jù)分析

①對于企業(yè)而言最重要的是利潤,所以管理者必須要從這張表中得到最關鍵也最容易得到的銷量和銷售額以及與其相關的一些數(shù)據(jù),通常是用最基本的數(shù)理統(tǒng)計結果來直觀地反映該企業(yè)在某個期間的盈利情況。

②其次,我們必須要做進一步的分析。已經(jīng)對整體的情況有了一定的把握,所以就可以朝著不同的方向去挖掘一些有價值的信息,為企業(yè)高層做決策提供有力的依據(jù)。對產(chǎn)品銷售而言,客戶結構能夠有效地反映客戶的地域分布,企業(yè)可以根據(jù)客戶的來源,在未開辟客戶的地域去尋找新的目標客戶群。而銷量結構可以直觀地反映企業(yè)較大銷量來自哪個地區(qū),對銷量較小的地區(qū)可以加大宣傳力度或者增加銷售網(wǎng)點來保持各地區(qū)銷售均衡。還可以及時地調(diào)整銷售方式來擴大市場份額,而對于銷量最小的地區(qū)考慮開辟新的市場。

統(tǒng)計了各地區(qū)的銷售總額和平均銷售額以及兩者的對比關系。由此可以得出地區(qū)平均購買力大小,以及各地區(qū)總銷售額大小。借助圖表描述,管理者可以對企業(yè)在某段期間內(nèi)的銷售狀況有一個大概的把握,只有掌握了這些的信息,才能更細化地去研究具體的影響因素。劃分等級,對于經(jīng)常性大量購買的客戶必須要以惠的價格和好的服務讓其滿意,以形成一個穩(wěn)定的大客戶群。而對于那些少量購買的客戶,也要制定出相應合適的方案來留住客戶。所以,分析銷售額的分布情況,可以掌握客戶的購買力度而且還能及時做一些留住大客戶的舉措。

4用R語言實現(xiàn)數(shù)據(jù)多層次分析

R語言是一種自由軟件編程語言與操作環(huán)境,是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng),它是一種用來進行數(shù)據(jù)探索、統(tǒng)計分析和作圖的解釋型語言。它可以提供一些集成的統(tǒng)計工具,但更大量的是它提供各種數(shù)學計算、統(tǒng)計計算的函數(shù),從而使使用者能靈活機動地進行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法。而在使用R語言進行數(shù)據(jù)分析處理時,當我們遇到很大的原始數(shù)據(jù),但用來建模的數(shù)據(jù)較小,則可以先在數(shù)據(jù)庫中進行整理,然后通過R與數(shù)據(jù)庫的接口提取數(shù)據(jù),數(shù)據(jù)庫適合存放和整理比較規(guī)整的數(shù)據(jù),和R中的數(shù)據(jù)框有良好的對應關系,這也是R中絕大多數(shù)統(tǒng)計模型的標準數(shù)據(jù)結構。數(shù)據(jù)庫中大部分的運算都不需要消耗很大的內(nèi)存。

5結語

多層次數(shù)據(jù)分析在管理上有十分重要的意義,因為它所產(chǎn)生的價值是建立在真實的數(shù)據(jù)層面,而對一個企業(yè)而言搜集數(shù)據(jù)模式的改進是管理過程的完善,對企業(yè)符合時代潮流和規(guī)范管理過程是至關重要的。多層次數(shù)據(jù)分析能夠及時糾正企業(yè)錯誤的決策,能夠對進度展開實時跟蹤,還能了解成本管制情況和人員思想動態(tài)等。對于個人而言,數(shù)據(jù)分析可以幫助我們更好地去生活,消費者可以通過分析結果去選擇物美價廉的商品。還可以用數(shù)學模型來分析電影的票房,來減少不必要的損失等。總之,大數(shù)據(jù)時代多層次數(shù)據(jù)分析的價值是無可估量的,它可以囊括我們能想到方方面面以及我們現(xiàn)在還想不到的一些領域。也許,在不久的將來數(shù)據(jù)分析技術會變成一個獨立的學科,而掌握數(shù)據(jù)分析技術是以后社會中人才必備的技能。

作者:祁鵬年單位:長沙理工大學經(jīng)濟與管理學院

數(shù)據(jù)分析論文:氣象雷達數(shù)據(jù)分析論文

1.系統(tǒng)的設計

系統(tǒng)主要實現(xiàn)軟件的模塊話設計,包括反射率數(shù)據(jù)分析模塊、速度分析模塊、天線運行穩(wěn)定性分析模塊以及雷達組網(wǎng)數(shù)據(jù)分析模塊。

1.1反射率分析模塊

反射率的大小體現(xiàn)了氣象目標的降水粒子的密度分布及體積大小,在實際氣象技術中長期用于表示氣象目標的強度,在工作上采用dBZ單位表示。對于空管氣象雷達圖,數(shù)據(jù)顯示采用PPI(PlanPositionImage)顯示方式。該方式?jīng)Q定了一張氣象雷達圖由圓錐俯視平面上分析空間的回波構成。在設計上簡單介紹其設計流程,首先必須讀取原始數(shù)據(jù),并判斷是否首次讀取,若為首次讀取則對其進行預處理,否則進行坐標轉換;其次進行圖像繪制并判斷是否需要改變仰角。此處需要關注的關鍵是如何進行數(shù)據(jù)的預處理。在實現(xiàn)上,對接收的數(shù)據(jù)進行反射率信息結構體賦值。當然該結構體包括了記錄實際仰角角度、數(shù)據(jù)文件路徑存儲、雷達波段判斷以及相關數(shù)據(jù)的偏移。通過掃描上述結構體可以實現(xiàn)對雷達數(shù)據(jù)的預處理。

1.2速度分析模塊

多普勒雷達采用了速度退化模糊技術以擴大其對徑向風速測量不模糊的區(qū)間。結構設計主要考慮數(shù)據(jù)顯示的徑向方式,流程設計則與反射模塊類似。當然在界面設計上,系統(tǒng)將提供對顏色配置的定義,使其人機交互更為快捷。

1.3天線穩(wěn)定性分析模塊

天線是雷達數(shù)據(jù)采集的關鍵部位,長期以來是影響雷達運行的主要關鍵點之一。其依賴于底下的電機進行旋轉,目前大多數(shù)進口電機可以保障24小時安全運行。而運行時仰角提升和轉速的平穩(wěn)性直接影響雷達數(shù)據(jù)的采集。為此,我們通過在徑向數(shù)據(jù)上采用方位角及仰角進行掃描實現(xiàn)曲線圖監(jiān)控。通過選擇基數(shù)據(jù)再進行預處理后繪制相關曲線實現(xiàn)對天線運行狀態(tài)的評估。其中,曲線圖的繪制需要的參數(shù)為:縱坐標為氣象雷達實際運行的每層仰角均值;橫坐標為范圍角:0-360°。

1.4雷達組網(wǎng)分析模塊

按照民航局的總體規(guī)劃,未來空管將實現(xiàn)多氣象雷達覆蓋,在這過程,多個氣象雷達的組網(wǎng)將成為氣象雷達數(shù)據(jù)的主要來源。這種模式將使得數(shù)據(jù)覆蓋面更大、數(shù)據(jù)安全性更高、數(shù)據(jù)性更強。而與此同時帶來了雷達數(shù)據(jù)融合組網(wǎng)的技術難點。設計上,首先模塊將定義雷達站點配置信息,并與此同時提供組網(wǎng)雷達可選數(shù)據(jù);其次對選擇雷達數(shù)據(jù)進行數(shù)據(jù)預處理;再之則對雷達數(shù)據(jù)進行統(tǒng)計平均并做坐標轉換;進行拼圖處理。在這過程中,需要對雷達數(shù)據(jù)的強度進行自適應調(diào)整、顯示范圍自適應調(diào)整。與上述同理,系統(tǒng)核心在于預處理。在C#中定義List數(shù)據(jù)列表,并在定義其結構為[站點標示][距離][方位角],對于數(shù)據(jù)讀取時,需要進行插值算法處理,此時的單時數(shù)據(jù)拼接分析可以實現(xiàn)不同仰角和方位角的篩選。為了控制系統(tǒng)數(shù)據(jù)的性可以在前端定義雷達數(shù)據(jù)方位角表,根據(jù)表進行映射處理。通常如若出現(xiàn)非連續(xù)數(shù)據(jù)可以在預處理上對其進行差值補償。在C#上可以采用反差圓補償方法。

2.結束語

本文從實際出發(fā),提出一種包括多普勒雷達反射率數(shù)據(jù)分析、速度分析、天線穩(wěn)定性分析和雷達組網(wǎng)分析為一體的集成化空管氣象雷達數(shù)據(jù)分析系統(tǒng),該系統(tǒng)通過C#設計實現(xiàn),能夠應用于空管一線技術保障,并為相關多普勒雷達系統(tǒng)數(shù)據(jù)分析提供一種參考。

作者:李志單位:中國民用航空汕頭空中交通管理站氣象臺

數(shù)據(jù)分析論文:變電站電流回路數(shù)據(jù)分析論文

1新投變電站概況

某一變電站是220kV新建負荷站,220kV和110kV電氣主接線均使用雙母線接線方式,通過2213,2214和-500kV變電站連接并接入系統(tǒng),110kV系統(tǒng)和10kV系統(tǒng)尚無出線。站內(nèi)有2臺三卷變壓器,接線型式為Y0/Y0/Δ-11,額定容量是180000/180000/90000kVA,電壓組合是220±8×1.25%/115110.5kV。

2相量檢查的意義

對新安裝或電流回路有過變動的保護裝置,在其投入運行前,必須用一次電流和工作電壓檢驗,也就是進行相量檢查。在檢驗保護裝置電流回路接線正確后,方可將保護投入運行,為電網(wǎng)的安全、穩(wěn)定運行提供保障。

3相量數(shù)據(jù)采集和分析

3.1井目量數(shù)據(jù)分析

502所帶為10kV5母線,投入3組電容器,每組容量為7.5Mvar,總容量為22.5Mvar。因為所帶負荷為純電容元件,所以,有功P為0Mvar,無功Q為22.5Mvar。即得出視在功率S為22.5MVA。取10kV系統(tǒng)平均電壓為10.5kV,得出502的一次電流為1237A。已知502保護用TA變比是4000/1,可求得502TA保護繞組二次電流為0.309A。通過相量檢查,可知502各TA保護繞組電流為0.294A左右,計算值與測量值相差不大。因此,可以得出502各TA保護繞組變比使用正確。同理可推導出503各TA保護繞組變比使用正確。3.1.1.2502,503相位分析,10kV5母線通過502向2號主變輸送無功,10kV3母線通過503向3號主變輸送無功,并且已知有功為0,因此,對應相電壓超前一次電流90°,電流以母線側為極性,則二次對應相電壓超前二次電流90°。通過相量檢查所得電流相位與理論推導一致。3.1.22202,2203相量數(shù)據(jù)分析

3.2變比分析

502各TA保護繞組電流為0.294A左右,且已驗證502各TA保護繞組變比使用正確,因此,通過502的一次電流是1176A。由于102,103,145均在合位,所以,10kV5母線通過502向2號主變輸送等量無功,10kV3母線通過503向3號主變輸送等量無功。根據(jù)基爾霍夫定律可知,102,103,145沒有電流流過。因此,2號主變可視為只有高低壓側運行,即兩卷變運行。根據(jù)能量守恒定律,低壓側輸入功率等于高壓側輸出功率,取10kV系統(tǒng)的平均電壓為10.5kV,220kV系統(tǒng)的平均電壓為231kV,由此可得,2202一次電流I為(1.732×1176×10.5)/(1.732×231)=53.45A。已知2202的主變差動保護用TA變比是1250/1,則可求得2202主變差動保護二次電流是0.0428A。2202母線差動保護用TA變比是2500/1,則可求得2202母線差動保護二次電流是0.0214A。通過相量檢查可得2202TA保護繞組的電流分別為0.0413A和0.0205A,計算值與測量值相差不大,由此可得,2202各TA保護繞組變比使用正確。同理可推導出2203各TA保護繞組變比使用正確。

3.3相位分析

220kV5母線通過2202,2203接受無功,并且已知有功為0,因此,對應相電壓超前一次電流270°,電流以母線側為極性,則二次對應相電壓超前主變差動二次電流270°。因為母差用保護繞組為反極性,由此可得二次對應相電壓超前母差二次電流為90°。通過相量檢查所得的電流相位與理論推導一致。觀察可知,A相、B相、C相的電流幅值基本相等,相位互差120°,即A相電流超前B相120°,B相電流超前C相120°,C相電流超前A相120°。由此可得,2202,2203各TA保護繞組極性正確。

3.4相量數(shù)據(jù)分析

3.5母聯(lián)極性問題

該變電站220kV系統(tǒng)為雙母線,配置母線保護BP-2B和RCS-915AB.BP-2B母線保護各元件TA的極性端必須一致,裝置默認母聯(lián)TA的極性與2母線上的元件一致。RCS-915AB母線保護TA極性要求支路TA同名端在母線側,母聯(lián)TA同名端在母線1側,可將該變電站的母線1稱作4母線,母線2稱作5母線。因此,2245母聯(lián)BP-2B母線保護用TA同名端在5母線側,2245母聯(lián)RCS-915AB母線保護用TA同名端在4母線側。

3.6變比分析

2214是2202通過2245提供一次電流,因此,2245一次電流為51.625A。已知2245各TA保護繞組變比為2500/1,則可求得2245各TA繞組二次電流為0.0207A。通過相量檢查可得2245各TA保護繞組電流為0.0202A左右,計算值與測量值相差不大。由此可得,2245各TA保護繞組變比使用正確。

3.7相位分析

220kV4母線通過2245接受無功,且已知有功為0,因此,對應的相電壓超前一次電流270°,充電保護電流以4母線為極性,則二次對應相電壓超前充電保護二次電流270°。2245母聯(lián)BP-2B母線保護用TA同名端在5母線側,并且母差用保護繞組為反極性,則二次對應相電壓超前BP-2B母線保護二次電流270°。2245母聯(lián)RCS-915AB母線保護用TA同名端在4母線側,并且母差用保護繞組為反極性。由此可得,二次對應相電壓超前RCS-915AB母線保護二次電流90°。通過相量檢查可知,電流相位與理論推導相差不大。

3.8相量檢查結論

之前多通過表記得出一次電流的大小和送受關系,其實這是不的(TA表記繞組也需要相量檢查),應該通過負荷情況,用理論方法計算和推導出一次電流的大小和送受關系,以便核實相量檢查結果。相量檢查后的相量分析不但包括相位分析,還應包括變比分析,只有在變比和相位都正確的情況下,才能算作相量正確。

4結束語

電流回路數(shù)據(jù)的采集和分析對變電站的運行有非常重要的作用,所以,我們要足夠重視此問題。綜上所述,本文主要研究了變電站電流回路數(shù)據(jù),并結合具體的工程實例系統(tǒng)地闡述了相關內(nèi)容,以期為變電站的工作提供一定的幫助。

作者:盧志華單位:廣州南方電力集團科技發(fā)展有限公司

數(shù)據(jù)分析論文:電力營銷系統(tǒng)數(shù)據(jù)分析論文

1HANA數(shù)據(jù)分析平臺采用的核心技術

HANA數(shù)據(jù)分析平臺在軟件方面,通過內(nèi)存技術,應用程序能直接處理電力企業(yè)數(shù)據(jù)庫中的各種數(shù)據(jù),并直接在主內(nèi)存中處理。主要技術包括行+列的存儲、壓縮、數(shù)據(jù)分區(qū)、增量數(shù)據(jù)更新等。平臺采用的軟件包括數(shù)據(jù)抽取工具、內(nèi)存數(shù)據(jù)庫(含數(shù)據(jù)庫服務器、建模工具Studio、客戶端工具)、報表展現(xiàn)層BusinessObjectsBI組件。在硬件方面,通過預配置的軟硬件結合體,提供高性能的數(shù)據(jù)讀寫操作,并在內(nèi)存數(shù)據(jù)庫里采用列式存儲從而將更多的數(shù)據(jù)存入(列式存儲方式更適合數(shù)據(jù)壓縮)。

2HANA數(shù)據(jù)分析平臺實施過程

數(shù)據(jù)分析平臺建設應遵循較大限度的考慮應用實用性、縮短實現(xiàn)周期、降低技術風險等因素。

2.1需求分析

需求分析是要對用戶的訴求或需求進行深入了解,并在需求的基礎上對整個平臺進行一致約定。因此以重要性、分析的復雜性、數(shù)據(jù)量大小、以及快速見效為原則,需求分析需要明確下面的內(nèi)容。

1)選擇需要分析的主題,結合當前電力營銷業(yè)務在計量、業(yè)擴、抄表、電費核算、電費繳納、賬務等工作職能的劃分,也要考慮分析的主題具有針對性的業(yè)務場景,這些場景往往跨越多個職能。

2)分析并描述各個主題的業(yè)務背景,包括使用的用戶角色,使用的業(yè)務場景。以電費出賬異常為例:電費出賬異常主要是由于用戶檔案錯誤、抄表錯誤所引發(fā)的,涉及到業(yè)擴、抄表、電費核算等多個職能部門。以電費出賬異常作為分析的主題,其業(yè)務場景主要用于電費發(fā)行后,對引發(fā)電費異常的用戶檔案數(shù)據(jù)、計量信息、抄表信息進行檢查并按職能需求進行分別展示。

3)分析各個主題間的關系,在這個平臺上用戶的所有活動信息,如用戶請求的數(shù)量,用戶對這些數(shù)據(jù)的訪問頻率、時間、數(shù)據(jù)細節(jié)層次、請求多大的數(shù)據(jù)量等之間的關聯(lián)。

4)分析主題所涉及的表的目錄、表的內(nèi)容、表的容量、每個表的平均行大小、表的記錄數(shù)、表的增長情況等。

2.2平臺規(guī)劃

HANA數(shù)據(jù)分析平臺應用架構一般采用四層:數(shù)據(jù)源層、數(shù)據(jù)抽取及復制層、HANA數(shù)據(jù)集市層以及報表展示層。

1)數(shù)據(jù)源層:作為平臺的分析對象,提供報表分析所需的數(shù)據(jù),數(shù)據(jù)源層可同時支持各種類型的數(shù)據(jù)庫,數(shù)據(jù)源層為營銷系統(tǒng)(管理庫),生產(chǎn)庫到管理庫之間采用SharePlex復制工具實現(xiàn)數(shù)據(jù)同步,以避免數(shù)據(jù)抽取對生產(chǎn)系統(tǒng)的影響。

2)數(shù)據(jù)抽取和復制層:數(shù)據(jù)抽取和復制層負責將數(shù)據(jù)源層中源系統(tǒng)的數(shù)據(jù)抽取和復制到HANA分析數(shù)據(jù)庫中,主要構成是數(shù)據(jù)抽取和復制工具,可以分別采用實時同步服務(SLT)以及非實時同步的數(shù)據(jù)服務(DataService)兩種不同的復制工具來滿足不同特征的源數(shù)據(jù)要求。在確定采用哪種工具前,需要對每個數(shù)據(jù)源的大小、變更時間、變更頻繁度、增量大小等信息做詳細了解,對不同數(shù)據(jù)源表選擇合適的復制工具。

3)數(shù)據(jù)集市層:數(shù)據(jù)集市層是整體系統(tǒng)架構的核心,負責分析數(shù)據(jù)的儲存、報表模型的建立以及數(shù)據(jù)計算。該層包含分析數(shù)據(jù)庫以及虛擬模型架構兩個主要組成,所有需分析展示的數(shù)據(jù)在數(shù)據(jù)集市層通過集市層進行儲存、壓縮、建立邏輯模型并計算,通過該平臺特有的內(nèi)存計算技術可以使這個過程的效率大幅提升。

4)報表展示層:報表展示層負責將HANA數(shù)據(jù)庫中的數(shù)據(jù)運算結果按照報表需求進行展示,采用SAPBusinessObjectBI4.0以及EXCEL作為展示工具。

2.3平臺實現(xiàn)

2.3.1模型設計

依據(jù)報表的需求分析、功能需求、性能需求、模型擴展性、模型的靈活性、實現(xiàn)成本進行平衡,在達到性能要求的前提下,設計出可以重用的模型,HANA平臺不同于傳統(tǒng)的數(shù)據(jù)倉庫需要物理化模型設計,HANA采用了邏輯視圖模型設計的概念,邏輯視圖從表面看體現(xiàn)的是傳統(tǒng)的星型、雪花型模型設計,但這些模型中的數(shù)據(jù)并不是物理存放的。HANA提供了屬性視圖、分析視圖、計算視圖三種模型設計,屬性視圖實現(xiàn)對維度的設計,分析視圖則實現(xiàn)傳統(tǒng)的星型模型設計,計算視圖實現(xiàn)更復雜的雪花型模型設計。模型設計時是先將需求階段所確定的分析主題作為分析對象,梳理每個主題展示所需的事實表數(shù)據(jù)內(nèi)容和數(shù)據(jù)粒度、分析維度、分析的數(shù)據(jù)指標。例如:一個以分析電費構成為主題的業(yè)務場景,該主題分析當期電費的構成情況,并同期比較各個電費構成的變動情況,那它的指標可以為目錄電度電費、峰谷品跌、豐枯品跌、基本電費、力調(diào)費、代征費、電度電費、結算電費等指標。分析的維度可包含:時間維度、用戶維度、組織維度、用電服務維度、抄表維度、計收維度等。并在此時完成對事實表和維度表的邏輯數(shù)據(jù)模型設計。

2.3.2表樣及功能設計

報表的樣式和功能應當考慮用戶對數(shù)據(jù)進行分析的使用習慣,借鑒數(shù)據(jù)倉庫中的多維數(shù)據(jù)可視化方法,通過對報表的上鉆、下鉆、切片等展示功能技術的利用,實現(xiàn)對匯總性數(shù)據(jù)、明細類數(shù)據(jù)、核心數(shù)據(jù)的快速查看和分析。以上述的分析電費構成主題為例,其展示需求決定表樣的設計采用圖型混合表格的方式,功能上采用按照組織維度進行上鉆、下鉆功能可查看不同供電區(qū)域的電費構成情況和各個指標的排名情況,前端展示采用了BOWebintelligence嵌入DashBoard圖表設計實現(xiàn)。

2.3.3數(shù)據(jù)抽取及復制設計

為確保數(shù)據(jù)質量,應當進行數(shù)據(jù)抽取和復制的規(guī)劃設計。首先,根據(jù)模型設計中指標、維度信息分別列舉出其相應的數(shù)據(jù)來源,即營銷系統(tǒng)的物理表和字段,指標來源于營銷系統(tǒng)的交易數(shù)據(jù),而維度來源于營銷系統(tǒng)的主數(shù)據(jù)。其次,根據(jù)邏輯數(shù)據(jù)模型和數(shù)據(jù)來源確定營銷數(shù)據(jù)庫到HANA數(shù)據(jù)庫的ETL規(guī)劃,根據(jù)數(shù)據(jù)的質量規(guī)則(包括:數(shù)據(jù)清除、空值處理、數(shù)據(jù)替換、規(guī)范化數(shù)據(jù)格式等),確認營銷系統(tǒng)源數(shù)據(jù)到HANA目標數(shù)據(jù)庫數(shù)據(jù)的轉換規(guī)則,同時依據(jù)數(shù)據(jù)大小、數(shù)據(jù)變更時間、數(shù)據(jù)變更頻繁度、數(shù)據(jù)增量大小要求確定采用的實時工具SLT還是定時抽數(shù)工具BODataService,例如:收費賬務相關的交易數(shù)據(jù)存在記錄基數(shù)大、變更頻率很高等特征,采用實時復制增量數(shù)據(jù)更合適,而賬務的月結數(shù)據(jù)僅在每月初產(chǎn)生且數(shù)據(jù)量非常巨大,因此采用定時批量復制更合適。

2.3.4模型及報表開發(fā)

模型及報表開發(fā)共分為數(shù)據(jù)裝載、HANA建模、定義語義層(IDT)、報表開發(fā)、數(shù)據(jù)校驗五個步驟,這五個步驟相互交疊與重復,直至到達化設計。其中數(shù)據(jù)裝載的方式利用了SLT的實時同步技術,SLT同步技術其核心是基于數(shù)據(jù)庫的觸發(fā)器模式實現(xiàn)對源數(shù)據(jù)的增量復制,較大限度的避免了對源系統(tǒng)表結構的改變,同時采用的多任務復制機制使得實時復制的效率可保持在5~10秒內(nèi)的數(shù)據(jù)延遲,裝載后的HANA數(shù)據(jù)的大小比較源數(shù)據(jù)庫數(shù)據(jù)大小可壓縮30%~70%的容量。

3發(fā)展前景

不斷的完善HANA數(shù)據(jù)分析平臺的分析主題,不僅是基于電力營銷系統(tǒng),還可以基于用電采集系統(tǒng)等構建起電力企業(yè)的大數(shù)據(jù)分析平臺。利用HANA內(nèi)置的PAL(預測分析庫)對海量電量數(shù)據(jù)、客戶服務數(shù)據(jù)實現(xiàn)數(shù)據(jù)高級分析,建立其有效的事前預測、事中控制、事后改善的企業(yè)快速輔助決策模式。營銷業(yè)務可以在客戶服務中對受理業(yè)務的情況信息、執(zhí)行過程、執(zhí)行結果進行深入分析、對客戶需求進行快速響應,改進服務質量、提升電網(wǎng)服務建設。更可以利用海量電能量數(shù)據(jù)對偷竊電稽核、客戶用電行為、能效管理等進行過分析和應用,助力營銷輔助決策與分析能力的快速提升。

4結論

基于電力營銷系統(tǒng)中業(yè)務數(shù)據(jù)所建立的HANA數(shù)據(jù)分析平臺,從分析效率來看均有實質性的提高。經(jīng)實踐證明,與營銷系統(tǒng)報表在同等條件下對比,其分析效率可提高百倍以上。在大宗數(shù)據(jù)的分析上,HANA平臺更是體現(xiàn)了其快速見效、性能優(yōu)異、分析功能操作簡潔和靈活、快速適應業(yè)務變化的能力。

作者:劉宏剛吳丹單位:重慶市電力公司信息通信分公司重慶智網(wǎng)科技有限公司

數(shù)據(jù)分析論文:中醫(yī)學科評估數(shù)據(jù)分析論文

1評估指導思想和中醫(yī)學科參評高校情況分析

評估按照“提高質量、優(yōu)化結構、鼓勵特色、協(xié)同創(chuàng)新”的思路,強調(diào)質量,淡化規(guī)模,建立了新的評估指標和體系。全國中醫(yī)學科共有21個學位授予單位自愿申請參評,共有博士授權學科14個,碩士授權學科7個。其中,博士一級12個(北京中醫(yī)藥大學,天津中醫(yī)藥大學,遼寧中醫(yī)藥大學,黑龍江中醫(yī)藥大學,上海中醫(yī)藥大學,南京中醫(yī)藥大學,浙江中醫(yī)藥大學,山東中醫(yī)藥大學,湖北中醫(yī)藥大學,湖南中醫(yī)藥大學,廣州中醫(yī)藥大學,成都中醫(yī)藥大學),博士二級1個(青海大學),碩士一級6個(河南中醫(yī)學院,湖北民族學院,重慶醫(yī)科大學,西藏藏醫(yī)學院,陜西中醫(yī)學院,甘肅中醫(yī)學院),碩士二級1個(中央民族大學)。全國中醫(yī)國家重點學科有11個,“國家重點學科”參評率為。全國有中醫(yī)博士一級學科的大學是14個,其中12個參評,2個未參評(福建中醫(yī)藥大學、長春中醫(yī)藥大學),“博士一級學科”參評率為85.7%。

2評估指標分析

2.1一級指標分析

在本輪學科評估指標體系中,一級指標共有4個,分別是“師資隊伍與資源”“科學研究水平”“人才培養(yǎng)質量”和“學科聲譽”。“學科整體水平”得分由這4項一級指標得分按指標權重計算得出。高于“學科整體水平”的一級指標為“學科聲譽”和“師資隊伍與資源”,低于“學科整體水平”的一級指標有“科學研究水平”和“人才培養(yǎng)質量”,說明我校中醫(yī)學科“學科聲譽”和“師資隊伍與資源”實力較強,是我校長期積淀的結果,“科學研究水平”和“人才培養(yǎng)質量”相對較弱,表明我校在這2個方面仍有很大的進步空間。

2.2二級指標分析

(1)師資隊伍與資源。“師資隊伍與資源”的二級指標包括“專家團隊情況”“突出中青年專家數(shù)”“專職教師數(shù)”和“重點學科與重點實驗室”。“專家團隊情況”是將本單位本學科的“院士、長江、杰青、千人、973首席、教學名師、新世紀人才”等。“突出中青年專家”是指“長江學者、國家杰青基金獲得者、千人計劃入選者、973首席科學家、百千萬人才工程部級人選、國家教學名師”。我校中醫(yī)學科在“專家團隊情況”“突出中青年專家數(shù)”和“重點學科與重點實驗室”均位列第1。但在“專職教師數(shù)”指標上僅位列第9,相對于其他項明顯不足。從該指標上看,我校中醫(yī)學科應著力增加專職教師,促進師資隊伍整體結構進一步優(yōu)化。

(2)科學研究水平。“科學研究水平”一級指標包括“代表性學術論文質量”“科研獲獎”“專利轉化與出版專著情況”“科研項目情況”等二級指標。我校“科研獲獎”位列第1。“代表性學術論文質量”和“科研項目情況”位列第2。“代表性學術論文質量”包括“國內(nèi)、國外收錄的代表性學術論文的他引次數(shù)”“高水平學術論文”等末級指標。“國內(nèi)代表性論文他引次數(shù)和”是指近5年(2007—2011年)被CSSCI、CSCD收錄的代表性學術論文的他引次數(shù)和(自選20篇)。“國外代表性論文他引次數(shù)和”是指近5年(2007—2011年)被SCI、EI、Medline收錄的代表性學術論文的他引次數(shù)和(自選30篇)。“高水平學術論文”是指本學科近3年(2009—2011年)發(fā)表學術論文中,水平相對較高的15篇論文,提供給專家進行主觀評價打分。我校“國內(nèi)代表性論文他引次數(shù)和”在20個參評高校中位列第1,但“國外代表性論文他引次數(shù)和”在20個參評高校中位次第3,“高水平學術論文”位次第2。該指標比起2008年學科評估結果有較高程度的提升,究其原因一方面可能是隨著我校師生研究和交流國際化進程的不斷加速,國際交流與合作意識持續(xù)增強;另一方面由于我校出臺了高水平論文獎勵制度,學校教師及科研人員也得到了認可和鼓勵,發(fā)表SCI論文能力也大幅增長[2]。但是離“研究型大學”的目標還很遠,仍需加強高水平論文激勵機制,大幅度提高數(shù)量和質量,特別是SCI收錄文章的質量。“專利轉化”二級指標是指本學科近3年(2009—2011年)獲得授權并已轉化或應用的“發(fā)明專利”或“國防專利”(不含“外觀專利”“實用新型專利”“軟件著作權”等)。我校“專利轉化”在20個參評高校中位次僅并列第8,說明我校成果轉化能力需要加強,服務社會的貢獻度有待進一步提高。學校應在專利轉化上要加大支持力度,出臺優(yōu)厚的政策,鼓勵專利成果的轉化。“科研項目情況”包括“部級科研項目經(jīng)費及項目數(shù)”“人均科研經(jīng)費”等末級指標。“部級科研項目”包括:863計劃、973計劃、支撐計劃等科技部項目及國家自然基金項目、國家社科基金項目、全國教育科學規(guī)劃課題等科研項目;所統(tǒng)計經(jīng)費應是本學科近3年(2009—2011年)實際到賬的經(jīng)費之和。“人均科研經(jīng)費”是指本學科近3年(2009—2011年)承擔“部級、省部級、境外合作科研項目以及30項其他重要科研項目(如橫向項目)”并實際到賬的經(jīng)費除以專職教師數(shù)。我校“部級科研項目經(jīng)費”位列第3,“人均科研經(jīng)費”在20個參評高校中僅位列第2。可見,我校承接重大科研課題的能力需要加強。科研經(jīng)費短缺一直是制約我校發(fā)展的難點和重點,我校應當創(chuàng)造條件,鼓勵科研人員積極爭取各類科研項目。

(3)人才培養(yǎng)質量。“人才培養(yǎng)質量”一級指標包括“教學與教材質量”“學位論文質量”“學生國際交流”“學生”和“授予學位數(shù)”等二級指標。“教學與教材質量”二級指標包括“國家及省部級教學成果獎”“部級規(guī)劃教材與精品教材”等末級指標。“國家及省部級教學成果獎”是指本學科近3年(2009—2011年)獲得的國家教學成果獎和省部級教學成果獎,不包括精品課程等。“部級規(guī)劃教材與精品教材”是指本學科近3年(2009—2011年)出版或再版的“十一五”部級規(guī)劃教材和精品教材情況。我校“教學與教材質量”在20個參評高校中位次第10,“國家及省部級教學成果獎”在20個參評高校中位次第9,“部級規(guī)劃教材與精品教材”在20個參評高校中位次第10,說明我校應在中醫(yī)學科的“教學與教材質量”上下功夫,花大力氣沖擊“國家及省部級教學成果獎”,同時,爭取更多的“部級規(guī)劃教材與精品教材”。“學位論文質量”二級指標包括“全國博士學位論文”“全國博士學位論文抽檢情況”等末級指標“,學位論文質量”二級指標中,一項重要觀測點就是“學生獲得全國博士學位論文數(shù)”。全國博士學位論文評選工作是教育部為了加強高層次創(chuàng)造性人才的培養(yǎng)工作,鼓勵創(chuàng)新精神,提高我國研究生教育特別是博士生教育的質量開展的。此次評估主要依據(jù)參評學科近5年(2008—2012年)入選和提名“全國博士學位論文”的情況。我校“學位論文質量”本次在20個參評高校中位次并列第2。我校中醫(yī)學科2008—2012年入選“全國博士學位論文”1篇,無提名,排在并列第3的位置上。表明盡管我校中醫(yī)學科人才培養(yǎng)的成效顯著,但其質量仍有待進一步提高。“學生國際交流情況”二級指標包括“學生境外交流人數(shù)”和“授予境外學生學位數(shù)”等末級指標。“學生境外交流人數(shù)”是指近3年(2009—2011年)本學科學生赴境外交流學習(時間超過3個月)的學生數(shù)。“授予境外學生學位數(shù)”是指近3年(2009—2011年)本學科授予境外學生的學位數(shù)。我校“學生國際交流情況”在20個參評高校中位次第3,“學生境外交流人數(shù)”在20個參評高校中位次第4,“授予境外學生學位數(shù)”在20個參評高校中位次第2,可能與近些年外籍學生數(shù)目減少有關。我校已將建設“有特色、高水平、國際知名的研究型大學”作為奮斗目標,因此,必須推進與境外知名大學、研究機構和醫(yī)療單位高層次、實質性合作,加快我校的國際化進程。走出去拓展我校的國際交流與合作平臺,同時積極宣傳,擴大學校的國際影響力。“學生”二級指標是有參評學科提供本學科的在校生(5名)和近10年(2002—2011年)的畢業(yè)生(10名),由本學科專家和行業(yè)、企業(yè)界人士進行主觀評價打分。我校“學生”在20個參評高校中位次第1。“授予學位數(shù)”二級指標包括“授予博士學位數(shù)”和“授予碩士學位數(shù)”等。本次評估對此項指標設置了“上限”,超過上限值的均為滿分,而不按規(guī)模的增大遞增得分。我校“授予學位數(shù)”在20個參評高校中位次并列第1。可見,我校中醫(yī)學科的研究生學位授予已達一定的規(guī)模,今后的重點是進一步提高研究生培養(yǎng)的質量。從二級指標層面看,位次等于學科整體水平的有“專家團隊情況”“重點學科與重點實驗室”“科研獲獎”“學生”“授予學位數(shù)”。位次低于學科整體水平的有“專職教師數(shù)”(第9位),“專利轉化”(并列第8位),“代表性學術論文質量”(第2位),“科研項目情況”(第2位),“教學與教材質量”(第10位),“學位論文質量”(并列第2位)等。可見,位次低于學科整體水平的指標偏多,未來提升的需求任重而道遠。

3我校中醫(yī)學科發(fā)展的方向及趨勢建議

綜上所述,我校中醫(yī)學科較前5年有較大發(fā)展,在“師資隊伍與資源”“科學研究水平”“人才培養(yǎng)質量”和“學科聲譽”均有整體優(yōu)勢,這與我校長期的積淀分不開。但在一些方面仍顯不足,如:“師資隊伍與資源”暴露出“專職教師數(shù)”的不足,在“科學研究水平”上仍有“國外代表性論文他引次數(shù)和”和“高水平學術論文”不夠多,“專利轉化”明顯滯后,還存在“部級科研項目經(jīng)費”不夠多、“人均科研經(jīng)費”缺乏等問題。在“人才培養(yǎng)質量”上,“教學與教材質量”“學位論文質量”還有待提高,“學生境外交流人數(shù)”不多“,授予境外學生學位”的規(guī)模還不大。這些均是學科核心競爭力的體現(xiàn),代表著學科發(fā)展的潛能和動力。因此,在努力改善辦學條件的同時,一方面要繼續(xù)打造和發(fā)展學科平臺,穩(wěn)固學科發(fā)展所需的科研基礎;另一方面要繼續(xù)提高人才培養(yǎng)質量,加強高層次領軍人物的培養(yǎng)和引進工作,提升承擔國家重大科研任務和科研成果孵化轉化能力,加快學校的國際化進程,保持主干學科的國內(nèi)引領地位。

總之,筆者分析了我校中醫(yī)學科此次評估中的重要指標,有優(yōu)勢也有不足,希望能為了解我校中醫(yī)學科的學術隊伍、科學研究、人才培養(yǎng)等方面的狀態(tài)提供一些參考,從而更加明確發(fā)展和建設的方向,并有針對性地進行學科的內(nèi)涵和質量建設提供科學依據(jù)。

作者:趙慧輝單嬌王娟王偉單位:北京中醫(yī)藥大學

數(shù)據(jù)分析論文:人工模擬降雨試驗數(shù)據(jù)分析論文

1人工模擬降雨試驗方法

1.1徑流小區(qū)布局

野外人工模擬降雨試驗要在前期土壤水分不飽和的狀態(tài)下進行,因此每次模擬降雨試驗只能在同一徑流小區(qū)進行一次降雨過程。為獲取更多的野外模擬降雨產(chǎn)匯流及水土流失對比數(shù)據(jù),計劃在每個項目區(qū)的典型坡度———5°~8°、8°~15°、15°~25°分別建設坡地徑流小區(qū)。徑流小區(qū)的布設與等高線垂直,根據(jù)相關規(guī)范和實際條件,徑流小區(qū)投影面積一般為60m2,即20m(順坡投影長度)×3m(寬與等高線平行)。云縣石佛山坡耕地水土流失綜合治理試點工程水土保持監(jiān)測項目于2010年12月初完成8°、12°、15°三塊坡地小區(qū)的建設,2011年6月下旬及時次模擬降雨試驗后,為方便對比分析,根據(jù)工程進展情況在12°坡地小區(qū)旁增設一塊梯地小區(qū)。

1.2人工模擬降雨系統(tǒng)

此次人工模擬降雨試驗采用西安理工大學研制的人工模擬降雨試驗系統(tǒng)(圖1)。它基于工控組態(tài)軟件,應用現(xiàn)有的人工模擬降雨試驗裝置,將試驗過程的常用設備和工控軟件結合在一起,增加了自動控制環(huán)節(jié),通過對控制系統(tǒng)進行改造,解決了手動調(diào)節(jié)雨強不方便的問題,實現(xiàn)了對不同時段、不同雨強、不同分布的人工模擬降雨系統(tǒng)的手動和自動雙控制,采用監(jiān)控組態(tài)系統(tǒng)更好地滿足了人工模擬降雨試驗的需求。該人工模擬降雨系統(tǒng)可建于自然坡面上,高6m,降雨試驗區(qū)長20m、寬3m,有效降雨面積60m2。降雨系統(tǒng)布設在降雨裝置支架上,噴頭選用與天然降雨雨滴譜最為接近的X型下噴式噴頭,由4組不同噴嘴孔徑組合而成。為兼顧模擬降雨的均勻性與搭建支架的經(jīng)濟性和安全性,將系統(tǒng)在野外難以架設的固定式方鋼支架改為鋼管腳手架。頂寬超出徑流小區(qū)寬度方向兩邊各0.3m,頂端橫桿按照水管和噴頭分布架設,壓力控制裝置設4個出水管,每管對應同一噴嘴孔徑的噴頭,共設置4組24個不同噴嘴孔徑噴頭,支架內(nèi)部無任何遮擋。壓力控制裝置可自動、手動控制出水管的全開、全關或部分開啟。本系統(tǒng)可模擬降雨強度變化范圍4~200mm/h,降雨雨強最小分辨值1.3mm/h,降雨強度控制精度0.66mm/h,降雨均勻度>0.95。系統(tǒng)采用先進的閉環(huán)自動控制理論和技術,是一種應用交流變頻調(diào)速器控制的人工模擬降雨自動控制設備,以降雨過程的最終實際降雨參數(shù)控制和驅動系統(tǒng)的各個降雨部件,克服了從水源到噴頭之間諸多環(huán)節(jié)對降雨的隨機影響。實驗室測試結果表明,該設備的主要性能指標優(yōu)于國內(nèi)外其他人工模擬降雨系統(tǒng),是進行土壤產(chǎn)匯流和侵蝕規(guī)律研究的重要試驗設備。

1.3人工模擬降雨雨強

石佛山小流域位于云南省臨滄市云縣幸福鎮(zhèn)幸福村水土保持監(jiān)測項目區(qū)。模擬降雨設計頻率及雨強參照幸福雨量站。該站距項目區(qū)直線距離2km,1983年建站,有1983—2010年共28年的完整降雨資料,降雨資料質量,能滿足設計暴雨頻率分析要求。通過幸福雨量站1h短歷時暴雨頻率計算,石佛山小流域100年一遇1h降雨量為84.8mm,50年一遇1h降雨量為77.0mm,30年一遇1h降雨量為72.1mm。人

工模擬降雨采用100年一遇1h降雨過程。

2人工模擬降雨監(jiān)測結果

2.1JDZ02型自記雨量器記錄結果

人工模擬降雨試驗于2011年1月開始,至2012年9月結束,跨2年歷時40天,試驗時間分別為枯水期兩次(及時次、第三次)、主汛期兩次(第二次、第四次)。在不同坡度的徑流小區(qū)分別進行15場次的人工模擬降雨試驗。

2.2普通雨量器監(jiān)測結果

徑流小區(qū)人工模擬降雨面降雨量采用普通雨量器監(jiān)測,用算術平均法計算平均面降雨量。用普通雨量器觀測的15場次人工模擬降雨面降雨量計算結果見表3。

2.3人工模擬降雨產(chǎn)流產(chǎn)沙量監(jiān)測

人工模擬降雨雨強采用100年一遇1h降雨雨強。在模擬降雨試驗前采用移動墑情監(jiān)測儀和稱重法在各小區(qū)距地表10、20、30cm土層剖面處取土樣分別測定前期土壤含水率,并取平均值。產(chǎn)流產(chǎn)沙量的監(jiān)測是在有徑流產(chǎn)生時,每5min取1個水樣,采用加權平均法計算平均含沙量,并用容積法記錄產(chǎn)流量。監(jiān)測結果。

3試驗結果分析

3.1人工模擬降雨試驗降雨監(jiān)測結果分析

云南省人工模擬降雨試驗是全國及時次大規(guī)模使用人工模擬降雨系統(tǒng)在野外研究土壤產(chǎn)匯流和侵蝕規(guī)律的試驗。實驗室內(nèi)的環(huán)境與野外環(huán)境差距較大,在野外試驗雖然是按100年一遇的標準進行人工降雨,但是由于受風速、風向影響較大,加之降雨雨滴與實際還有一定差距,所以部分降雨隨風飄落到小區(qū)之外,落到小區(qū)地面的降雨標準也因此降低。考慮到上述情況,試驗都選在無風或輕微風和微風的環(huán)境下進行。將徑流小區(qū)內(nèi)安裝的JDZ02型自記雨量器記錄的降雨雨強與設計降雨雨強進行相關性分析,相關系數(shù)都在0.6以上,說明人工模擬降雨過程與設計降雨過程之間存在強相關。根據(jù)統(tǒng)計學原理,使用Brown-Forsythe檢驗法檢驗設計降雨過程與12場次JDZ02型自記雨量器記錄降雨過程的差異性,在顯著性水平α=0.05下檢驗結果為各組之間差異不顯著。對比設計雨量與JDZ02型自記雨量器記錄結果,有7場次降雨接近或超過設計雨強,說明在徑流小區(qū)局部,人工模擬降雨雨強是達到設計要求的。對徑流小區(qū)12場次面降雨量監(jiān)測結果進行分析,小區(qū)內(nèi)模擬降雨重現(xiàn)期達到10年一遇以上的有7場,以下的有5場,較高重現(xiàn)期為13年一遇,低為2年一遇。小區(qū)內(nèi)降雨極不均勻,單個普通雨量器收集的降雨量有的大于設計雨強,有的小于設計雨強,特別是小區(qū)兩側降雨量與設計雨量誤差較大,達到82.5mm。受風速、風向、試驗支架架設高度和植被的影響,用加權平均法計算出徑流小區(qū)內(nèi)21只普通雨量器的實測面平均雨量均小于設計雨量,相對誤差在-62.7%~-27.0%之間,未達到設計要求。

3.2徑流小區(qū)產(chǎn)流產(chǎn)沙情況分析

(1)8°徑流小區(qū)。由表4知,及時次模擬降雨試驗,坡地小區(qū)土壤含水率接近飽和、植被覆蓋率為0,降雨4min后開始產(chǎn)流,歷時1h,產(chǎn)流量1.402m3,產(chǎn)沙量15.6kg。第二次試驗在主汛期進行,土壤含水率接近飽和,小區(qū)內(nèi)種植玉米,植被覆蓋率為,降雨2min后開始產(chǎn)流,歷時62min,產(chǎn)流2145m3,產(chǎn)沙量10.2kg。第三次試驗,小區(qū)土壤含水率12.16%,植被為雜草和伐倒的玉米植株,植被覆蓋率為70%,降雨9min后開始產(chǎn)流,歷時40min,產(chǎn)流量0.064m3,產(chǎn)沙量0.015kg。該次模擬降雨面平均雨量為44.1mm,僅占設計雨量的48.5%,加之前期土壤含水率低,因此產(chǎn)流量和產(chǎn)沙量都較小。第四次試驗,小區(qū)內(nèi)種植的玉米已進入成熟期,植株較高,植被覆蓋率為。試驗時為減小風力對人工模擬降雨的影響,將降雨架高度由6m減至4m。降雨27min后開始產(chǎn)流,歷時12min,產(chǎn)流量0.082m3,產(chǎn)沙量0.082kg。該次降雨面平均雨量為59.9mm,占到設計雨量的70.6%,但是由于小區(qū)前期土壤含水率低,僅為9.04%,故產(chǎn)流量和產(chǎn)沙量都較小。

(2)12°徑流小區(qū)。及時次試驗,由于模擬降雨面平均雨量小(31.6mm),雖然前期土壤含水率高達1503%,但該次降雨條件下該小區(qū)未產(chǎn)流。第二次試驗,小區(qū)前期土壤含水率已接近飽和,植被覆蓋率達,降雨2min后開始產(chǎn)流,歷時58min,產(chǎn)流量1.513m3,產(chǎn)沙量20.9kg。第三次試驗,小區(qū)前期土壤含水率11.41%、植被覆蓋率70%,降雨11min后開始產(chǎn)流,歷時42min,產(chǎn)流量0.156m3,產(chǎn)沙量0.044kg。該次模擬降雨面平均雨量較大,占到設計雨量的71.3%,但是由于前期土壤含水率低,故產(chǎn)流量和產(chǎn)沙量都較小。第四次試驗,小區(qū)植被覆蓋率,降雨31min后開始產(chǎn)流,產(chǎn)流時間5min,產(chǎn)流量0.010m3,產(chǎn)沙量0.004kg。該次模擬降雨面平均雨量達到50.9mm,占到設計雨量的60.0%,但是受土壤含水率僅為10.59%的影響,產(chǎn)流量和產(chǎn)沙量都較小。

(3)15°徑流小區(qū)。由表4可知,及時次試驗,小區(qū)前期土壤含水率為16.05%、植被覆蓋率為0,降雨30min后開始產(chǎn)流,歷時10min,產(chǎn)流量0.0165m3,產(chǎn)沙量0.133kg。第二次試驗,土壤含水率已接近飽和,達20.65%,小區(qū)植被覆蓋率60%,降雨7min后開始產(chǎn)流,產(chǎn)流53min,產(chǎn)流量0.629m3,產(chǎn)沙量10.6kg。第三次試驗在冬季進行,小區(qū)植被覆蓋率為80%,由于前期土壤含水率低(10.41%)、面平均雨量偏小(43.3mm),因此該次降雨在該小區(qū)未產(chǎn)流。第四次試驗,小區(qū)植被覆蓋率,人工模擬降雨60min未產(chǎn)流,為檢驗產(chǎn)流情況,在12:15將人工模擬降雨裝置閘門全開,以較大降雨強度連續(xù)降雨5min,于降雨64min后開始產(chǎn)流,產(chǎn)流5min,產(chǎn)流量0.022m3,產(chǎn)沙量0.036kg。該次模擬降雨歷時65min,面平均雨量達到61.1mm,占到設計雨量的72.1%,受前期土壤含水率(10.74%)較低、植被覆蓋率較高影響,該小區(qū)產(chǎn)流量和產(chǎn)沙量都較小。(4)梯地徑流小區(qū)。由表4可知,梯地徑流小區(qū)及時次試驗在主汛期進行,前期土壤含水率為17.46%,植被覆蓋率為20%,降雨2min后開始產(chǎn)流,產(chǎn)流48min,產(chǎn)流量1.146m3,產(chǎn)沙量1.93kg。第二次試驗在冬季進行,小區(qū)前期土壤含水率8.09%,植被覆蓋率90%,模擬降雨面平均雨量為58.5mm,由于前期土壤含水率過低,該次降雨在該小區(qū)未產(chǎn)流。第三次試驗在9月份進行,前期土壤含水率為8.48%,植被覆蓋率為,模擬降雨面平均雨量為54.1mm。該次試驗該小區(qū)未產(chǎn)流,其主要原因也是梯地小區(qū)前期土壤含水率過低。

4結語

(1)人工模擬降雨裝置在實驗室內(nèi)可取得較為理想的降雨成果,在野外試驗雖然是按100年一遇的標準進行人工模擬降雨,但受風速、風向、支架架設高度和植被的影響,加之降雨雨滴與實際還有一定差距,部分降雨隨風飄落到小區(qū)之外,落到徑流小區(qū)地面的降雨量相對減少,面平均降雨強度因此降低,但局部降雨強度達到設計要求,這說明該模擬降雨系統(tǒng)仍存在一定不足,需要進一步改進。

(2)在相同坡度、相同暴雨條件下,無植被覆蓋或植被覆蓋率低的徑流小區(qū)產(chǎn)流、產(chǎn)沙量更大,說明提高地表植被覆蓋率可以有效涵養(yǎng)水源、減輕土壤侵蝕,同時在前期土壤含水率高的情況下,也更容易出現(xiàn)產(chǎn)流產(chǎn)沙。此外,將坡地改為梯地,并增加相應植被覆蓋率對減少水土流失的效果是非常明顯的。

作者:徐曉鵬徐志春張鼎輝楊軒單位:云南水文水資源局耿馬縣水務局

數(shù)據(jù)分析論文:煙草視頻數(shù)據(jù)分析論文

1前言

隨著煙草行業(yè)信息化推進現(xiàn)代化進程的快速發(fā)展,新興的IT技術、先進的IT技術等已不斷融入到煙草行業(yè)的生產(chǎn)、營銷及管理等過程中,逐漸改變了煙草行業(yè)原有的經(jīng)營管理模式,加快了煙草行業(yè)結構調(diào)整,完善管理體制,提升市場競爭力。可以說,信息化建設給煙草行業(yè)帶來了改革與發(fā)展。因此,對新興技術的研究與探索,具有十分重要的意義。尤其是視頻監(jiān)控技術的發(fā)展,給煙草行業(yè)的帶來了較多的好處,煙草從種植、生產(chǎn)、流通、消費的每個環(huán)節(jié)中,視頻監(jiān)控技術都發(fā)揮了重要作用。視頻大數(shù)據(jù)分析技術是近兩年興起的技術,視頻大數(shù)據(jù)分析的應用,在公安視頻偵查等中已突顯其發(fā)展前景,本文將針對煙草行業(yè),討論視頻大數(shù)據(jù)分析的發(fā)展應用。

2視頻監(jiān)控在煙草行業(yè)的發(fā)展及應用現(xiàn)狀

(1)煙田監(jiān)控:實現(xiàn)對煙田、育苗大棚內(nèi)實時監(jiān)控;

(2)煙葉收購站監(jiān)控:實現(xiàn)對煙草所有站點煙葉收購全流程監(jiān)控視頻調(diào)看、查詢、巡視、控制的功能;

(3)生產(chǎn)及公用設施區(qū)監(jiān)控:主要用于監(jiān)控車間內(nèi)重要設備、生產(chǎn)線運行、物流線路及環(huán)境狀況,以及動力中心車間內(nèi)空調(diào)、鍋爐等重要設備的運行及環(huán)境狀況,防止災害和事故的發(fā)生。

(4)煙草物流配送中心監(jiān)控:對物流配送中心進行實時監(jiān)控;

3視頻大數(shù)據(jù)分析的技術需求

隨著視頻監(jiān)控在煙草行業(yè)的大規(guī)模應用,視頻數(shù)據(jù)量的增加,每天產(chǎn)生的數(shù)據(jù)量都是以TB(1000GB)級別計算的,若是利用傳統(tǒng)的技術手段對每天的視頻進行檢索和分析,則需要數(shù)小時的時間才能夠完成,工作量及工作難度可想而知;而對于更高級別的視頻數(shù)據(jù),如PB(1000TB)級別的視頻數(shù)據(jù)進行分析和檢索時間那就是很多天了。視頻檢索與分析的效率低下,也是目前視頻數(shù)據(jù)利用效率及數(shù)據(jù)價值低下的首要原因。為此,如何提高視頻數(shù)據(jù)分析與檢索的效率,如何針對PB(1000TB)級別甚至EB(1000PB)級別的海量數(shù)據(jù)進行分析與檢索,提升視頻監(jiān)控數(shù)據(jù)價值,成為了當前用戶的首要需求,也成為了當前視頻大數(shù)據(jù)分析技術的難點及關鍵點之一。同時,在對視頻進行檢索與分析的過程中,需要考慮檢索結果的性。由于視頻圖像信息為非結構化數(shù)據(jù),如何合理有效地對非結構化的數(shù)據(jù)進行檢索分析,優(yōu)化計算機圖像識別算法,是提高視頻大數(shù)據(jù)分析性關鍵所在。再者,當完成視頻檢索與分析后,如何做好視頻數(shù)據(jù)與非視屏數(shù)據(jù)的整合與關聯(lián)工作,是后期視頻數(shù)據(jù)應用時重點考慮的內(nèi)容。

4視頻大數(shù)據(jù)在煙草行業(yè)的應用思考

時下,煙田監(jiān)控、煙葉收購站監(jiān)控、生產(chǎn)及公用設施區(qū)監(jiān)控、煙草物流配送中心監(jiān)控等的視頻監(jiān)控數(shù)據(jù)較多僅僅用作安防視頻使用,還未涉及到與煙草業(yè)務的關聯(lián);隨著視頻監(jiān)控建設的完善及視頻大數(shù)據(jù)技術發(fā)展,各類監(jiān)控視頻數(shù)據(jù)量的增加,考慮到投資回報比,是否可以通過視頻大數(shù)據(jù)分析,將煙草業(yè)務與視頻監(jiān)控相關聯(lián),在海量的視頻監(jiān)控數(shù)據(jù)中提取有益于煙草行業(yè)發(fā)展的變革或新技術呢?

4.1安防業(yè)務

基于傳統(tǒng)視頻監(jiān)控,安防業(yè)務是傳統(tǒng)業(yè)務之一,通過大數(shù)據(jù)分析,有效快捷的提取安防所需要的視頻片段。同時基于視頻行為告警策略,及時告警。

4.2安全生產(chǎn)

結合視頻大數(shù)據(jù)分析,將以往多次生產(chǎn)事故監(jiān)控視頻整合,通過對多次生產(chǎn)安全事故的分析,總結出更為安全的生產(chǎn)規(guī)則;再則通過視頻監(jiān)控與生產(chǎn)行為的結合,制定安全生產(chǎn)標準,通過聲音報警或警示燈報警等技術,在不符合標準視頻監(jiān)控預定義的安全規(guī)則情況時,能夠及時報警。通過視頻監(jiān)控分析,提升生產(chǎn)的安全性。如采用彩色網(wǎng)絡快球攝像機和彩色固定網(wǎng)絡槍式攝像機,彩色網(wǎng)絡快球攝像機的預制位設置應優(yōu)先,根據(jù)視頻大數(shù)據(jù)分析后,系統(tǒng)可提供不同故障區(qū)域或設備的故障信號,各工藝段或設備的操作運行信號,通過系統(tǒng)集成與生產(chǎn)監(jiān)控實現(xiàn)聯(lián)動,平常攝像機對正在操作或運行設備進行監(jiān)控,一旦某個故障點報警,攝像機立刻自動轉動到報警點,監(jiān)控中心的NVR主機開始錄像等。

4.3效率生產(chǎn)

結合視頻大數(shù)據(jù)分析,通過分析各個不同煙站或煙廠中的同一種生產(chǎn)行為,結合對海量數(shù)據(jù)進行智能分析,提取出價值數(shù)據(jù)片段,形成元數(shù)據(jù)信息庫,再通過人為加工后期數(shù)據(jù),總結形成效率生產(chǎn)有用的價值信息,提供生產(chǎn)借鑒,提高生產(chǎn)效率。

4.4創(chuàng)新生產(chǎn)

通過視頻大數(shù)據(jù)分析,將以往的視頻通過軌跡分析,得出以往生產(chǎn)過程中各類生產(chǎn)動作中不必要或者多余的部分,簡化或者優(yōu)化生產(chǎn)規(guī)則;通過對給類生產(chǎn)行為的總結,提出合理的建議,為生產(chǎn)提出創(chuàng)新性意見或建議,提高生產(chǎn)率。

5結論

視頻大數(shù)據(jù)分析技術是近年來新興的技術,目前已廣泛應用于公安行業(yè)的平安城市之中;隨著視頻監(jiān)控的發(fā)展與更新,其視頻大數(shù)據(jù)分析同樣也會逐漸向各行各業(yè)擴展,煙草行業(yè)對視頻大數(shù)據(jù)分析技術的需求也將會越來越強烈,目前國內(nèi)基本還屬于空白及探索階段,尚需要技術的發(fā)展與行業(yè)的實踐。

作者:郜社榮魏嘉偉王寧單位:昆明市煙草公司

數(shù)據(jù)分析論文:廣電網(wǎng)絡數(shù)據(jù)分析論文

1系統(tǒng)架構設計

整個系統(tǒng)以廣電大數(shù)據(jù)分析平臺為基礎構建,系統(tǒng)由數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)分析中心、三個數(shù)據(jù)應用中心(推薦中心、決策中心和服務中心)組成和系統(tǒng)管理模塊組成。

1.1數(shù)據(jù)采集系統(tǒng)

大數(shù)據(jù)時代,大數(shù)據(jù)有著來源復雜、體量巨大、價值潛伏等特點,這使得大數(shù)據(jù)分析必然要依托計算機技術予以實現(xiàn).因此從兩個方向上加強數(shù)據(jù)采集統(tǒng)建設,一是側重于數(shù)據(jù)的處理與表示,強調(diào)采集、存取、加工和可視化數(shù)據(jù)的方法;二是研究數(shù)據(jù)的統(tǒng)計規(guī)律,側重于對微觀數(shù)據(jù)本質特征的提取和模式發(fā)現(xiàn),在兩個方向上的協(xié)同、均衡推進,以此來保障大數(shù)據(jù)平臺應用的穩(wěn)健成長和可持續(xù)發(fā)展.廣電的網(wǎng)絡和用戶是其核心資產(chǎn),而其中流動的數(shù)據(jù)(包括用戶基礎數(shù)據(jù)、網(wǎng)絡數(shù)據(jù)、網(wǎng)管/日志數(shù)據(jù)、用戶位置數(shù)據(jù)、終端信息等)是核心數(shù)據(jù)資產(chǎn).對于廣電運營商來說,最有價值的數(shù)據(jù)來自基礎網(wǎng)絡,對于基礎網(wǎng)絡數(shù)據(jù)的挖掘和分析是運營商大數(shù)據(jù)挖掘的最重要方向.因此其數(shù)據(jù)采集的目標包括機頂盒數(shù)據(jù)、CRM數(shù)據(jù)、帳務數(shù)據(jù)、客服數(shù)據(jù)、運維數(shù)據(jù)、媒資數(shù)據(jù)、GIS數(shù)據(jù)、財務數(shù)據(jù)和其他手工錄入、表格數(shù)據(jù).采集頻率要求可以實現(xiàn)實時采集和定時批量采集.采集這類數(shù)據(jù)帶來一個問題就是各類數(shù)據(jù)雜亂無章,會導致數(shù)據(jù)質量問題越來越嚴重,通過引進實時質量監(jiān)控和清洗技術,建設強大的分布式計算和集群能力,提高數(shù)據(jù)監(jiān)控和數(shù)據(jù)采集性能,利用分布式處理技術,實現(xiàn)數(shù)據(jù)抽取、數(shù)據(jù)清洗以及相應的數(shù)據(jù)質量檢查工作,保障采集到高質量的數(shù)據(jù),將廣電大數(shù)據(jù)中心建設成一個覆蓋廣電系統(tǒng)全部數(shù)據(jù)的存儲中心,具備采集各類結構化、非結構化海量數(shù)據(jù)的處理能力.

1.2數(shù)據(jù)分析中心

廣電企業(yè)每時每刻都在產(chǎn)生大量的數(shù)據(jù),需要對這些數(shù)據(jù)歸集、提煉,廣電企業(yè)大數(shù)據(jù)平臺建設的意義在于有效掌握規(guī)模龐大的數(shù)據(jù)信息,對這些數(shù)據(jù)信息進行智能處理,從中分析和挖掘出有價值的信息.在廣電大數(shù)據(jù)分析中需要對直播節(jié)目分析、互動業(yè)務分析、互聯(lián)網(wǎng)流量分析、互聯(lián)網(wǎng)內(nèi)容分析、廣電客戶分析、市場收益分析、智能內(nèi)容推送和廣告分析等,通過這類數(shù)據(jù)分析,能夠實時了解廣電運營商的經(jīng)營狀況,提供決策支持.因此采用兩種方式分析方法對收集到的數(shù)據(jù)進行分析處理.一是采用在線分析方法技術,使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數(shù)據(jù)的目的.這些信息是從原始數(shù)據(jù)直接轉換過來的,他們以用戶容易理解的方式反映企業(yè)的真實情況.在線分析策略是將關系型的或普通的數(shù)據(jù)進行多維數(shù)據(jù)存貯,以便于進行分析,從而達到在線分析處理的目的.這種多維數(shù)據(jù)存儲可以被看作一個超立方體,沿著各個維方向存貯數(shù)據(jù),它允許分析人員沿事物的軸線方便地分析數(shù)據(jù),分析形式一般有切片和切塊以及下鉆、挖掘等操作.二是數(shù)據(jù)挖掘是從海量、不的、有噪聲的數(shù)據(jù)中挖據(jù)出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規(guī)則.這些規(guī)則蘊含了數(shù)據(jù)庫中一組對象之間的特定關系,揭示出一些有用的信息,可以為經(jīng)營決策、市場策劃和金融預測等方面提供依據(jù).

1.3數(shù)據(jù)應用中心

在大數(shù)據(jù)分析平臺應用過程中,數(shù)據(jù)本身并不是數(shù)據(jù)分析和數(shù)據(jù)挖掘的重點,重點在于如何應用這些技術去解決企業(yè)在運營中實際的商業(yè)問題.通過對數(shù)據(jù)分析和挖掘,了解企業(yè)運行過程存在問題,預判企業(yè)中各類業(yè)務發(fā)展走向.對數(shù)據(jù)分析與挖掘結果來說主要有兩個方面,一是將分析結果給客戶使用,另一個是將分析結果提供給內(nèi)部用戶使用,因此在大數(shù)據(jù)分析平臺設計中,將數(shù)據(jù)應用劃分為三個應用中心:

1)推薦中心

推薦中心面向收視、寬帶使用用戶,通過分析使用用戶的收視、互聯(lián)網(wǎng)、消費等行為,將使用用戶分群,總結群體特征,向不同群體推薦個性化的電視節(jié)目、廣告和增值應用服務.從而提升用戶的使用體驗,提升用戶的滿意度和粘度.

2)決策中心

決策中心面向廣電企業(yè)內(nèi)部決策者、管理者、經(jīng)營分析人員,通過對企業(yè)經(jīng)營數(shù)據(jù)的KPI、運營監(jiān)控、經(jīng)營盤點,使企業(yè)決策者掌握企業(yè)運營狀況及發(fā)展趨勢;智能報告協(xié)助分析人員自動定位經(jīng)營中的問題;即席查詢在預定義的語義層基礎上,實現(xiàn)靈活的自定義查詢;通過主題分析滿足各部門、崗位的多維度分析需求;通過專題分析就某一具體問題進行深入挖掘,輔助專業(yè)分析人員的工作;統(tǒng)計報表滿足各部門常規(guī)統(tǒng)計需求.

3)服務中心

服務中心面向廣電的合作伙伴,比如:電視臺、廣告商、服務和內(nèi)容提供商、相關政府職能部門等.通過對使用用戶收視行為的實時分析,將電視欄目實時收視率提供給電視臺,電視臺根據(jù)收視率進行在線的問卷調(diào)查,提高電視臺的影響力,幫助其增強欄目的評價體系.為廣告商提供精準的廣告投放策略,實時的廣告投放評估,幫助廣告商提升廣告到達率、度和營銷效果.為服務和內(nèi)容提供商的電影、電視和增值應用等產(chǎn)品提升收視率和使用頻率,并進行評估,為其提供受眾喜好特征,幫助其推出有針對性的產(chǎn)品.通過用戶收視數(shù)據(jù)、節(jié)目反饋等信息,將相關輿情向相關政府部門匯報.

1.4系統(tǒng)管理

系統(tǒng)管理是大數(shù)據(jù)分析平臺一個輔助功能模塊,主要是為了系統(tǒng)管理員對大數(shù)據(jù)平臺進行有效的監(jiān)控和管理,提升大數(shù)據(jù)分析平臺性能使用,包含有如下幾個模塊:權限管理、數(shù)據(jù)質量管理、元數(shù)據(jù)管理、調(diào)度管理、系統(tǒng)監(jiān)控等.

2數(shù)據(jù)應用分析

移動互聯(lián)網(wǎng)的發(fā)展為傳統(tǒng)行業(yè)帶來了新的思考,如何在互聯(lián)網(wǎng)時代更好地實現(xiàn)以客戶為中心的服務理念,借助大數(shù)據(jù)分析平臺、海量的客戶非結構化的行為數(shù)據(jù)和傳統(tǒng)的結構化數(shù)據(jù),可以有效提升廣電個性化、人性化的服務水平.大數(shù)據(jù)分析平臺通過整合廣電網(wǎng)絡中多個數(shù)據(jù)源,并按照主題進行劃分,在定義主題的過程中,提供廣電業(yè)務概念的規(guī)范定義.數(shù)據(jù)模型不偏重于面向某個應用,而是站在企業(yè)角度統(tǒng)攬全局,提供可擴展的模型設計,偏范式化的設計使平臺在較大程度上保持一致和靈活擴展性.依托某廣電網(wǎng)絡公司業(yè)務開展情況,搭建數(shù)據(jù)分析平臺,具有如圖2所示的主題結構,共計8大類53小類,從廣電網(wǎng)絡運營的各個方面進行了數(shù)據(jù)分析.

2.1直播節(jié)目分析主題

直播電視節(jié)目作為廣電運營模式中一直沿用的產(chǎn)品類型,對于廣電用戶的影響和廣電運營商運營模式起著至關重要的作用.實時直播節(jié)目分析,用戶可以實時查看每個時間點上每個節(jié)目收視率,以此為據(jù)來指導產(chǎn)品定制、節(jié)目選擇、用戶推廣等方面的商業(yè)應用,對直播節(jié)目的多維度分析,運營商可深入分析直播節(jié)目收視特性及受眾影響規(guī)律,以指導運營優(yōu)化,提高節(jié)目的收視率和營收.

2.2多媒體業(yè)務分析主題

廣電行業(yè)的雙向網(wǎng)絡改造不僅將視頻點播、通信及娛樂業(yè)務成為可能,同時配備增值業(yè)務,如廣告、支付、股票、游戲、付費節(jié)目等服務.可以明顯看到哪類業(yè)務受歡迎,哪類業(yè)務的增長趨勢良好,哪類業(yè)務應用下滑得較快,哪類業(yè)務不受用戶歡迎,從這樣的分析結果中,可以為廣電網(wǎng)絡以后的業(yè)務引進中提供指導,避免引進的業(yè)務不受用戶歡迎,同時也可以預見性的引進一些代表將來趨勢性的業(yè)務,提前做好業(yè)務儲備工作.互動業(yè)務的互動特性為廣電運營商增加客戶粘度、制定產(chǎn)品投放策略、獲取較大化收益及市場價值提供了前所未有的空間,通過對互動業(yè)務的應用分析,可以分析出用戶的行為趨勢.利用這樣的分析結果改善廣電業(yè)務引進,提高用戶的粘度和ARPU值.

2.3互聯(lián)網(wǎng)應用分析主題

廣電作為政府宣傳的喉舌,一個主要的特點就是可管可控,相對此而言,互聯(lián)網(wǎng)網(wǎng)絡一個重要特點就是用戶各類行為的不可控性.在三網(wǎng)融合的新環(huán)境下,廣電網(wǎng)絡一個重大改變就是引進了互聯(lián)網(wǎng)業(yè)務,同時通過多屏互動技術使廣電終端類型日益復雜,如何對廣電網(wǎng)絡引進的互聯(lián)網(wǎng)業(yè)務和終端進行有效的管控,成為擺在廣電網(wǎng)絡運營商面前一個重要課題.運營商可以清晰地看到用戶在討論什么、在看什么,以此來分析用戶將來可能采取的行為趨勢,進而來引導用戶輿論與行為,實現(xiàn)對廣電網(wǎng)絡的可管可控的最終目的.同時廣電網(wǎng)絡也可以利用互聯(lián)網(wǎng)數(shù)據(jù)從如下兩方面做了分析,運營流量及應用優(yōu)化,節(jié)省網(wǎng)絡帶寬,減少運營費,同時用以提高用戶體驗度,增加用戶粘性;充分利用線上、線下同步運營模式,深入挖掘線上討論內(nèi)容,為線下運營提供指導.

2.4廣電客戶分析主題

在三網(wǎng)融合的環(huán)境下,廣電網(wǎng)絡在逐漸擺脫事業(yè)單位模式下經(jīng)營模式,向“市場驅動”、“客戶驅動”經(jīng)營模式的轉變,“以客戶為中心”的理念和策略不可或缺,而廣電網(wǎng)絡擁有的客戶群和常規(guī)用戶分析的客戶群體有著本質區(qū)別,以往分析往往針對個體用戶進行分析,廣電網(wǎng)絡面向的用戶通常是以家庭為單位的,這給廣電網(wǎng)絡用戶行為分析帶來不可預料的困難.通過針對用戶群體不同年齡、不同時間段的收視行為和上網(wǎng)行為分析,可以區(qū)分某一時間段內(nèi)該家庭用戶內(nèi)個人的行為,可以清晰看到各類用戶在各個階段的變化情況,以及這個變化給廣電網(wǎng)絡運營帶來的變化.從用戶信息出發(fā),以用戶應用行為為主線,深入挖掘用戶關系,為廣電用戶關系管理提供有效基礎數(shù)據(jù),提高用戶滿意度、忠誠度,提高廣電網(wǎng)絡市場運作的主動性.

2.5市場收益分析主題

三網(wǎng)融合后,廣電網(wǎng)絡作為一個市場主體,需要適應日趨激烈的市場競爭環(huán)境,提升廣電運營商的企業(yè)核心競爭力,應充分利用業(yè)務支撐系統(tǒng)產(chǎn)生的大量寶貴的數(shù)據(jù)資源,建立廣電企業(yè)收益分析系統(tǒng),實現(xiàn)對收益數(shù)據(jù)的智能化加工和處理,為市場運營工作提供及時、、科學的決策依據(jù).利用先進的OLAP技術和數(shù)據(jù)挖掘技術,幫助企業(yè)的經(jīng)營決策層了解企業(yè)經(jīng)營的現(xiàn)狀,發(fā)現(xiàn)企業(yè)運營的優(yōu)勢和劣勢,預測未來趨勢;幫助細分市場和客戶,指導營銷、客服部門進行有針對性的營銷和高效的客戶關系管理;對決策的執(zhí)行情況和結果進行客觀的評估,深受用戶的青睞.如圖7所示的收益分析結果,可以清晰看出企業(yè)各類業(yè)務在營收中所占比例,可以明確了解哪類業(yè)務是企業(yè)的品質業(yè)務,哪類業(yè)務需要進一步加強開拓市場,同時也可以預測哪類業(yè)務會有更大的推廣空間,為企業(yè)持續(xù)開展業(yè)務提供指導.

2.6智能內(nèi)容推送主題

深層次挖掘用戶潛在的需求,以用戶的需求為導向,向用戶推送有針對性的內(nèi)容.廣電運營商通過對用戶差異性的運營策略,激發(fā)用戶參與的熱情,讓用戶有持續(xù)的良好體驗,提升對用戶的吸引力和黏著度.信息精準、智能推送的關鍵在于把握住用戶的行為習慣,同時讓每一個用戶都可以按自己需求方便、快捷地調(diào)整、歸類相關信息.大數(shù)據(jù)分析平臺基于用戶行為收集分析系統(tǒng),挖掘出用戶潛在需求,充分了解了用戶的真實意愿,將有助于廣電運營商建立以客戶為中心的服務理念,提升社會影響力.

3總結

大數(shù)據(jù)分析平臺能夠整合企業(yè)內(nèi)部多源異構、跨域關聯(lián)的海量數(shù)據(jù),有效收斂企業(yè)各業(yè)務系統(tǒng)的運營數(shù)據(jù),提供完善的數(shù)據(jù)分析和挖掘能力,為企業(yè)的客戶和企業(yè)本身提供了有價值的數(shù)據(jù)支撐,讓企業(yè)輕松掌握數(shù)據(jù)背后的本質洞察商機,提升效率,搶占大數(shù)據(jù)時代的競爭優(yōu)勢.通過在實際環(huán)境中建設的大數(shù)據(jù)分析平臺檢驗,大數(shù)據(jù)分析平臺具備四個核心能力:數(shù)據(jù)存儲、數(shù)據(jù)管控、數(shù)據(jù)服務和數(shù)據(jù)分析能力,將對廣電企業(yè)運營和發(fā)展有著重要的戰(zhàn)略意義.廣電利用大數(shù)據(jù)分析技術了解用戶,同時將分析結果融入內(nèi)容制作傳播等各個環(huán)節(jié)。因此,廣電需要利用大數(shù)據(jù)發(fā)展的契機,了解用戶,提升用戶粘性.

作者:朱月單位:沈陽音樂學院

台湾美女古装一级毛片| 日日夜夜婷婷| 亚洲天堂免费| 日本在线不卡视频| 四虎影视久久久| 香蕉视频久久| 久久福利影视| 精品国产亚一区二区三区| 成人免费网站久久久| 欧美电影免费| 二级特黄绝大片免费视频大片| 韩国毛片基地| 九九精品影院| 精品视频在线观看免费| 成人影院一区二区三区| 高清一级毛片一本到免费观看| 亚洲www美色| 日韩专区亚洲综合久久| 尤物视频网站在线| 精品视频在线看| 你懂的日韩| 四虎影视精品永久免费网站| 久久久成人网| 欧美爱爱动态| 国产成人啪精品视频免费软件| 国产视频一区二区在线播放| 一本伊大人香蕉高清在线观看| 欧美爱爱动态| 色综合久久手机在线| 中文字幕97| 91麻豆国产| 欧美另类videosbestsex| 久久久久久久网| 国产不卡精品一区二区三区| 一本高清在线| 高清一级毛片一本到免费观看| 午夜欧美成人久久久久久| 国产网站免费视频| 色综合久久久久综合体桃花网| 日韩在线观看网站| 91麻豆国产| 亚洲精品久久久中文字| 午夜激情视频在线播放| 麻豆污视频| 国产一区免费在线观看| 久久99这里只有精品国产| 午夜在线影院| 精品在线免费播放| 午夜精品国产自在现线拍| 精品视频一区二区三区免费| 99热精品在线| 日韩中文字幕在线观看视频| 九九久久99| 四虎久久精品国产| 久久精品免视看国产成人2021| 国产麻豆精品免费视频| 成人影院久久久久久影院| 国产欧美精品午夜在线播放| 毛片高清| 日韩中文字幕一区二区不卡| 精品国产一区二区三区免费 | 久久国产精品永久免费网站| 国产精品免费精品自在线观看| 成人在免费观看视频国产| 欧美爱爱动态| 欧美一级视频免费观看| 欧美另类videosbestsex久久| 九九久久99| 久久久久久久久综合影视网| 国产一区二区精品久久91| 久久国产影视免费精品| 国产不卡在线观看| 久久久成人网| 国产视频在线免费观看| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 青草国产在线观看| 午夜精品国产自在现线拍| 亚欧视频在线| 亚洲精品影院| 亚飞与亚基在线观看| 国产欧美精品午夜在线播放| 日韩avdvd| 在线观看导航| 欧美18性精品| 一本高清在线| 国产伦精品一区二区三区无广告 | 成人免费观看网欧美片| 亚洲爆爽| 国产一区二区精品尤物| 国产一区二区高清视频| 欧美爱色| 四虎影视精品永久免费网站| 欧美a级v片不卡在线观看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 国产视频一区二区在线播放| 韩国三级香港三级日本三级| 韩国毛片免费大片| 国产成人欧美一区二区三区的| 国产精品自拍在线| 日韩综合| 91麻豆爱豆果冻天美星空| 可以免费看污视频的网站| 色综合久久天天综合| 免费国产在线观看| 黄视频网站在线看| 黄色免费三级| 黄色短视屏| 国产高清在线精品一区a| 免费的黄色小视频| 国产极品白嫩美女在线观看看| 91麻豆精品国产自产在线观看一区 | 日韩在线观看网站| 欧美一区二区三区性| 久久99中文字幕| 午夜家庭影院| 久久99爰这里有精品国产| 欧美一级视| 91麻豆精品国产自产在线| 91麻豆爱豆果冻天美星空| 日韩免费在线视频| 国产原创中文字幕| 欧美国产日韩在线| a级毛片免费观看网站| 成人a大片在线观看| 91麻豆国产| 99热视热频这里只有精品| 亚洲天堂在线播放| 精品国产一级毛片| 韩国三级视频网站| 99久久精品国产麻豆| a级精品九九九大片免费看| 免费毛片播放| 亚洲女人国产香蕉久久精品| 黄视频网站在线看| 久久成人性色生活片| 中文字幕97| 韩国毛片| 一级女性大黄生活片免费| 天天做日日干| 精品国产一区二区三区久| 欧美18性精品| 国产高清在线精品一区a| 九九久久国产精品大片| 国产极品白嫩美女在线观看看| 国产精品自拍亚洲| 免费毛片基地| 精品国产一区二区三区久久久狼| 精品视频在线观看视频免费视频 | 欧美一区二区三区在线观看| 国产麻豆精品免费密入口| 久久久久久久免费视频| 国产不卡高清| 日韩中文字幕在线亚洲一区| 精品国产亚一区二区三区| 99久久精品国产麻豆| 日韩免费在线视频| 色综合久久天天综合观看| 成人免费一级纶理片| 九九久久国产精品大片| 精品视频在线看| 成人在免费观看视频国产| 日韩专区亚洲综合久久| 在线观看导航| 精品国产亚一区二区三区| 二级片在线观看| 日韩avdvd| 国产伦理精品| 日日夜夜婷婷| 国产精品自拍一区| 欧美爱爱动态| 国产不卡在线看| 999精品在线| 九九九国产| 亚洲天堂免费| 国产成人精品影视| 国产网站免费在线观看| 精品国产一区二区三区国产馆| 九九干| 久久精品道一区二区三区| 九九久久99| 二级特黄绝大片免费视频大片| 精品视频免费在线| 免费毛片播放| 国产精品免费久久| 91麻豆爱豆果冻天美星空| a级精品九九九大片免费看| 97视频免费在线观看| 久久99青青久久99久久| 国产一区二区高清视频| 国产伦理精品| 欧美a免费| 99热精品在线| 免费一级生活片| 欧美激情一区二区三区在线播放 | 91麻豆精品国产片在线观看| 九九干| 四虎久久精品国产| 国产成人精品综合久久久| 国产亚洲精品aaa大片|