久久久精品无码人妻宝贝乖_国产精品一二区_欧美 日韩 国产 成人 在线_久久一区二区电影

在線客服

數(shù)據(jù)挖掘課程實(shí)用13篇

引論:我們?yōu)槟砹?3篇數(shù)據(jù)挖掘課程范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時(shí)的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

數(shù)據(jù)挖掘課程

篇1

院大數(shù)據(jù);數(shù)據(jù)挖掘;教學(xué)方式;考核方式

大數(shù)據(jù)時(shí)代的到來(lái),給人們的生產(chǎn)和生活帶來(lái)極大的變革,由此也引起了社會(huì)各界的廣泛關(guān)注。目前,大數(shù)據(jù)已經(jīng)與我們的日常生活息息相關(guān),對(duì)各行業(yè)的發(fā)展也產(chǎn)生了至關(guān)重要的作用。數(shù)據(jù)挖掘技術(shù)是信息化的產(chǎn)物,也是現(xiàn)代企業(yè)生產(chǎn)和發(fā)展過(guò)程中需要用到的重要技術(shù)之一,因此對(duì)數(shù)據(jù)挖掘技術(shù)人才的需求越來(lái)越多,《數(shù)據(jù)挖掘》學(xué)科由此得到了快速的發(fā)展。本文將對(duì)《數(shù)據(jù)挖掘》課程的教學(xué)展開(kāi)論述,希望能引起同行的共鳴。

1大數(shù)據(jù)介紹

1.1大數(shù)據(jù)含義大數(shù)據(jù)是網(wǎng)絡(luò)技術(shù)發(fā)展到一定階段出現(xiàn)的新興名詞,是指數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多的數(shù)據(jù)構(gòu)成的集合,大數(shù)據(jù)是以云計(jì)算的共享平臺(tái)為基礎(chǔ),通過(guò)數(shù)據(jù)的交叉復(fù)用,形成新的智力資源和知識(shí)服務(wù)能力。大數(shù)據(jù)處理需要分布式計(jì)算機(jī)構(gòu)架才能完成,僅依靠單臺(tái)的計(jì)算機(jī)無(wú)法實(shí)現(xiàn)大數(shù)據(jù)處理,因此大數(shù)據(jù)處理就是借助云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)、虛擬存儲(chǔ)技術(shù)對(duì)大量數(shù)據(jù)進(jìn)行整合處理的過(guò)程。

1.2大數(shù)據(jù)特征大數(shù)據(jù)具有數(shù)量大(Volume)、類型多(Variety)、價(jià)值高(Value)和速度快(Velocity)的特點(diǎn),簡(jiǎn)稱為“4V”。大數(shù)據(jù)處理的數(shù)據(jù)規(guī)模不斷擴(kuò)大,已經(jīng)由GB、TB級(jí)擴(kuò)展到EB或ZB級(jí),這是普通計(jì)算機(jī)硬盤容量所無(wú)法達(dá)到的;大數(shù)據(jù)對(duì)象包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)對(duì)象由傳統(tǒng)的文本內(nèi)容擴(kuò)展到了音頻數(shù)據(jù)、視頻數(shù)據(jù)、搜索引擎中關(guān)鍵詞等,其數(shù)據(jù)的類型繁多復(fù)雜;數(shù)據(jù)之間的關(guān)聯(lián)性不斷加強(qiáng),已經(jīng)對(duì)社會(huì)經(jīng)濟(jì)、系統(tǒng)、信息學(xué)、網(wǎng)絡(luò)學(xué)以及心理學(xué)等多個(gè)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響;大數(shù)據(jù)的產(chǎn)生形式以數(shù)據(jù)流為主,能瞬時(shí)產(chǎn)生,具有很強(qiáng)的動(dòng)態(tài)性和時(shí)效性。

2數(shù)據(jù)挖掘曳課程教學(xué)探討

2.1教學(xué)內(nèi)容《數(shù)據(jù)挖掘》是一門綜合性的學(xué)科,學(xué)科內(nèi)涉及的主要內(nèi)容有數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、信息檢索、計(jì)算機(jī)技術(shù)以及可視化技術(shù)等,需要不同的學(xué)科交叉學(xué)習(xí),因此,該課程具有很高的理論性和實(shí)踐性。在教學(xué)過(guò)程中,不僅要注重基礎(chǔ)理論知識(shí)的培養(yǎng),還要加強(qiáng)對(duì)學(xué)生創(chuàng)新能力以及問(wèn)題解決能力的培養(yǎng)。課程的知識(shí)結(jié)構(gòu)可按照表1所示組建。數(shù)據(jù)挖掘前需要進(jìn)行預(yù)處理,然后才能存入數(shù)據(jù)倉(cāng)庫(kù),再利用相關(guān)的挖掘工具和算法,按照挖掘流程進(jìn)行數(shù)據(jù)挖掘,最后將挖掘結(jié)果以可視化的形式展示出來(lái)。在整個(gè)教學(xué)過(guò)程中,教學(xué)重點(diǎn)是挖掘工具和挖掘算法,其中挖掘工具主要有通用挖掘工具和專用挖掘工具兩類,而挖掘算法則包括分類法、關(guān)聯(lián)分析法、聚類法等10種方法。學(xué)生不僅要了解各類算法的相關(guān)概念,還要能利用算法對(duì)實(shí)例進(jìn)行分析。

2.2《數(shù)據(jù)挖掘》課程教學(xué)探索

2.2.1培養(yǎng)數(shù)據(jù)意識(shí)《數(shù)據(jù)挖掘》是以數(shù)據(jù)為驅(qū)動(dòng)的理論分析和應(yīng)用課程,具有抽象性和具體性,抽象性是指數(shù)據(jù)挖掘過(guò)程中的理論、技術(shù)和方法具有很強(qiáng)的抽象性,學(xué)生在有限的時(shí)間內(nèi)無(wú)法理解和消化;具體性是指研究?jī)?nèi)容比較客觀,具有一定的解釋性和理解性。針對(duì)以上特點(diǎn),教師在組織教學(xué)時(shí),應(yīng)先培養(yǎng)學(xué)生的學(xué)習(xí)興趣,使學(xué)生產(chǎn)生一定的數(shù)據(jù)意識(shí)。具體安排時(shí),可先安排2-4個(gè)學(xué)時(shí)講解數(shù)據(jù)及其主要應(yīng)用,讓學(xué)生對(duì)大數(shù)據(jù)的產(chǎn)生、影響和應(yīng)用等內(nèi)容做初步了解,使學(xué)生對(duì)該課程的學(xué)習(xí)目的和實(shí)際意義產(chǎn)生客觀認(rèn)識(shí)。

2.2.2深化基礎(chǔ),加強(qiáng)理論體系大數(shù)據(jù)特征對(duì)數(shù)據(jù)分析技術(shù)提出了更高的要求,現(xiàn)有的數(shù)據(jù)分析技術(shù)難以滿足實(shí)際需求,這就說(shuō)明了數(shù)據(jù)挖掘技術(shù)的應(yīng)用和發(fā)展將面臨更嚴(yán)峻的考驗(yàn)。數(shù)據(jù)挖掘技術(shù)涉及的知識(shí)內(nèi)容較多,在大學(xué)課程體系中難以全部開(kāi)設(shè),給學(xué)生的學(xué)習(xí)帶來(lái)很大阻礙。為解決以上問(wèn)題,開(kāi)封大學(xué)采取措施:將《數(shù)據(jù)挖掘》課程授課對(duì)象設(shè)定為高年級(jí)學(xué)生,經(jīng)過(guò)兩年或三年基礎(chǔ)課程的學(xué)習(xí),學(xué)生已經(jīng)具備了一定的理論基礎(chǔ),在學(xué)習(xí)《數(shù)據(jù)挖掘》課程中,就可節(jié)約大量時(shí)間學(xué)習(xí)課程的核心內(nèi)容。

2.2.3教學(xué)方式多樣化理論來(lái)源于實(shí)踐,也可以指導(dǎo)實(shí)踐;實(shí)踐是檢驗(yàn)理論的唯一途徑?!稊?shù)據(jù)挖掘》具有很強(qiáng)的抽象性,學(xué)生無(wú)法在有限的學(xué)習(xí)時(shí)間內(nèi)對(duì)眾多概念產(chǎn)生足夠清晰的認(rèn)識(shí),只能借助實(shí)踐教學(xué)使學(xué)生明白課程內(nèi)容的原理及其實(shí)用價(jià)值。在講解基本概念、原理或者算法時(shí),可采取案例教學(xué)法、任務(wù)驅(qū)動(dòng)教學(xué)法、項(xiàng)目教學(xué)法等,將理論與實(shí)踐相結(jié)合,提高學(xué)生的學(xué)習(xí)興趣和操作能力。因此教師應(yīng)在教學(xué)過(guò)程中注意教學(xué)方法的選擇和使用,充分體現(xiàn)出學(xué)生的主體地位和教師的主導(dǎo)作用,通過(guò)一系列理實(shí)一體化教學(xué)方式,提高教學(xué)效果。

2.3改革教學(xué)考核方式《數(shù)據(jù)挖掘》是一門融合多種學(xué)科的實(shí)踐課程,因此,課程的評(píng)價(jià)方式也應(yīng)做出一定的改進(jìn)。在考核時(shí),應(yīng)包括理論基礎(chǔ)和實(shí)踐部分考核,除考查學(xué)生對(duì)基本概念、挖掘流程等內(nèi)容的掌握情況外,還應(yīng)對(duì)學(xué)生的實(shí)踐操作技能進(jìn)行考核,采用多種方式對(duì)學(xué)生的學(xué)習(xí)進(jìn)行評(píng)價(jià),提高考核的有效性和公平性。

3結(jié)語(yǔ)

隨著信息化技術(shù)的不斷發(fā)展,現(xiàn)代企業(yè)生產(chǎn)運(yùn)行對(duì)信息化管理系統(tǒng)的依賴性越來(lái)越高,現(xiàn)代社會(huì)已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,在這種時(shí)代背景下,數(shù)據(jù)挖掘技術(shù)得到了社會(huì)各界的廣泛重視,企業(yè)對(duì)該專業(yè)的人才需求也越來(lái)越多,這就為《數(shù)據(jù)挖掘》課程的發(fā)展提供了有利條件。高校及任課教師應(yīng)認(rèn)清形勢(shì),積極調(diào)整教學(xué)理念,通過(guò)優(yōu)化課程內(nèi)容,改進(jìn)教學(xué)方式和考核方式,提高課程的教學(xué)效果,以培養(yǎng)高專業(yè)素養(yǎng)和高操作技能的復(fù)合型人才。

參考文獻(xiàn)

[1]范祺,朱昌杰,肖建于,沈龍鳳,李敏.以項(xiàng)目驅(qū)動(dòng)的數(shù)據(jù)挖掘課程教學(xué)改革的研究[J].科技信息,2012(11):9-10.

篇2

一、前言

近年來(lái),數(shù)據(jù)獲取和數(shù)據(jù)存儲(chǔ)技術(shù)快速發(fā)展,各種數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)量飛速增長(zhǎng)。人們關(guān)注的焦點(diǎn)要從噪聲、模糊的隨機(jī)數(shù)據(jù)中提取重要的信息、知識(shí),數(shù)據(jù)挖掘的出現(xiàn),提供了一種有效解決“數(shù)據(jù)豐富而知識(shí)貧乏”問(wèn)題的方法。

數(shù)據(jù)挖掘作為統(tǒng)計(jì)專業(yè)的核心課程,是學(xué)生必須掌握的職業(yè)能力課程。根據(jù)高職生的知識(shí)結(jié)構(gòu)體系和培養(yǎng)目標(biāo),我們采用案例驅(qū)動(dòng)教學(xué)方法,以學(xué)生為主體,案例為主線,教師為主導(dǎo),對(duì)案例進(jìn)行分析,學(xué)習(xí)案例所涉及的相關(guān)知識(shí)點(diǎn),從而會(huì)利用相關(guān)軟件工具對(duì)數(shù)據(jù)進(jìn)行分析,挖掘數(shù)據(jù)間的知識(shí)。

二、數(shù)據(jù)挖掘中案例驅(qū)動(dòng)教學(xué)的實(shí)施

(一)合理高職高專統(tǒng)計(jì)專業(yè)數(shù)據(jù)挖掘課程教學(xué)目標(biāo)

數(shù)據(jù)挖掘是集數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)、模式識(shí)別、可視化等學(xué)科的一個(gè)新興交叉學(xué)科,又包含了聚類分析、關(guān)聯(lián)規(guī)則分析、分類等,每一種挖掘又有不同算法,是一門理論性、實(shí)踐性及綜合性較強(qiáng)的課程。其知識(shí)內(nèi)容豐富,內(nèi)容深淺不一,各種方法變化快,新方法層出不窮,這對(duì)師生都提出了嚴(yán)峻的挑戰(zhàn)。

高職高專將培養(yǎng)高等技術(shù)應(yīng)用型專門人才為根本任務(wù),以適應(yīng)社會(huì)行業(yè)發(fā)展需求為基本目標(biāo),結(jié)合本院統(tǒng)計(jì)專業(yè)學(xué)生的專業(yè)技能特點(diǎn),我們將本門課程的教學(xué)目標(biāo)定位為:掌握數(shù)據(jù)挖掘課程涉及的基本概念,提高信息分析能力,能從收集到的數(shù)據(jù)信息中利用有效的軟件工具CLEMENTINE進(jìn)行知識(shí)“挖掘”;要根據(jù)實(shí)際情況制定合理完整的數(shù)據(jù)模型并進(jìn)行評(píng)估,這些評(píng)估要具有可視性,才能有效地解決問(wèn)題,而使數(shù)據(jù)挖掘更具有合理性。

(二)如何驅(qū)動(dòng)教學(xué)來(lái)設(shè)計(jì)數(shù)據(jù)挖掘案例

1.介紹案例驅(qū)動(dòng)教學(xué)法。案例驅(qū)動(dòng)法是在“哈佛大學(xué)”的情境案例教學(xué)課起源,是一種探索性和協(xié)作性學(xué)習(xí)的教學(xué)模式。整個(gè)授課過(guò)程圍繞著同一個(gè)目標(biāo)和幾項(xiàng)任務(wù)“教授”,學(xué)生通過(guò)對(duì)課程的學(xué)習(xí)、資料的查找和知識(shí)的整合,通過(guò)充分思考和與實(shí)踐相結(jié)合,提高自身能力。這種案例驅(qū)動(dòng)的教學(xué)法可以讓學(xué)生提高學(xué)習(xí)興趣,發(fā)展學(xué)生自身的能力。同時(shí)能讓教師更好地發(fā)揮促進(jìn)學(xué)生學(xué)習(xí)、引導(dǎo)學(xué)生成功的功能。

案例驅(qū)動(dòng)法是把教學(xué)內(nèi)容和目標(biāo)通過(guò)一個(gè)任務(wù)來(lái)體現(xiàn),把教材內(nèi)容重新整合,老師的授課和學(xué)生的接受都圍繞這個(gè)任務(wù)完成。

案例驅(qū)動(dòng)法可以充分發(fā)揮學(xué)生的主體地位,從而改變傳統(tǒng)的關(guān)于師生關(guān)系的觀念,讓學(xué)生從被動(dòng)學(xué)習(xí)到主動(dòng)學(xué)習(xí),真正愛(ài)上學(xué)習(xí),提高自己的創(chuàng)新、自學(xué)和實(shí)踐能力,同時(shí)要求老師在授課中給予學(xué)生正確的引導(dǎo)、促進(jìn)、組織和控制,這樣可以增強(qiáng)同學(xué)間的協(xié)作精神和學(xué)生的獨(dú)立意識(shí)。通過(guò)學(xué)生的自主學(xué)習(xí)和探索,可以改變?cè)瓉?lái)枯燥的學(xué)習(xí)方式。對(duì)于數(shù)據(jù)挖掘這門課程,內(nèi)容深?yuàn)W,既要求學(xué)習(xí)一定的理論知識(shí),又要求掌握數(shù)據(jù)挖掘的使用方法,因此我們引入使用案例驅(qū)動(dòng)的教學(xué)方法。

2.數(shù)據(jù)挖掘案例教學(xué)的實(shí)施規(guī)劃。利用CLEMENTINE軟件工具進(jìn)行數(shù)據(jù)挖掘,將數(shù)據(jù)挖掘看成一個(gè)以數(shù)據(jù)為中心的循序漸進(jìn)的螺旋式數(shù)據(jù)探索過(guò)程,該過(guò)程分為業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、方案評(píng)估和方案實(shí)施六大部分。因此,在教學(xué)過(guò)程中,我們圍繞數(shù)據(jù)挖掘的六大部分,在每一部分,講解基本的數(shù)據(jù)挖掘技術(shù)原理;對(duì)于數(shù)據(jù)挖掘算法,只要求掌握相關(guān)算法使用的方法和使用的場(chǎng)合,并會(huì)使用專業(yè)的數(shù)據(jù)挖掘工具CLEMENTINE,此應(yīng)用的前提條件要求對(duì)學(xué)生進(jìn)行數(shù)據(jù)挖掘;將教學(xué)的亮點(diǎn)和重點(diǎn)放在案例分析和實(shí)際應(yīng)用上,要對(duì)學(xué)生進(jìn)行動(dòng)手能力的訓(xùn)練。

在教學(xué)的過(guò)程中,最重要的是案例的選取。通過(guò)參考教學(xué)大綱和教學(xué)目標(biāo),對(duì)教學(xué)案例進(jìn)行精心設(shè)計(jì),可以提高學(xué)生的分析能力,提高學(xué)生發(fā)現(xiàn)問(wèn)題和解決問(wèn)題的能力,才能更好地將教案落實(shí),并形成具體的項(xiàng)目。根據(jù)數(shù)據(jù)挖掘課程的特點(diǎn)和具體內(nèi)容,我們通過(guò)某些小案例引入一些相關(guān)知識(shí),并且采用學(xué)生能夠接受的一個(gè)大案例讓學(xué)生使用成績(jī)數(shù)據(jù)模型組織整個(gè)教學(xué)過(guò)程。

我們的課程內(nèi)容按數(shù)據(jù)挖掘過(guò)程分為六大部分,按照每一部分的教學(xué)目標(biāo)我們?cè)O(shè)計(jì)了多個(gè)不同的小案例如下。

(1)藥物研究數(shù)據(jù)和學(xué)生參加社會(huì)活動(dòng)數(shù)據(jù)案例:通過(guò)這兩個(gè)數(shù)據(jù)模型掌握在CLEMENTIME軟件工具中利用軟件中SOURCES選項(xiàng)卡的多種節(jié)點(diǎn)讀入多種文件類型(如TXT文件、EXCEL文件、SPSS文件等)的數(shù)據(jù),掌握讀入數(shù)據(jù)的數(shù)據(jù)類型,掌握APPEND節(jié)點(diǎn)、MERGE節(jié)點(diǎn)合并數(shù)據(jù)的方法。

(2)移動(dòng)客戶數(shù)據(jù)案例:通過(guò)利用移動(dòng)數(shù)據(jù)讓學(xué)生掌握TYPE節(jié)點(diǎn)進(jìn)行變量說(shuō)明的方法,會(huì)使用該節(jié)點(diǎn)進(jìn)行有限變量值和無(wú)效值的調(diào)整,會(huì)使用DATA AUDIT節(jié)點(diǎn)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估和調(diào)整;掌握數(shù)據(jù)中對(duì)離群點(diǎn)、極端值和缺失值的調(diào)整,對(duì)數(shù)據(jù)進(jìn)行質(zhì)量管理;會(huì)使用AGGREATE對(duì)數(shù)據(jù)進(jìn)行分類匯總;利用FILLER節(jié)點(diǎn)對(duì)變量值重新計(jì)算,會(huì)用RECLASSIFY節(jié)點(diǎn)實(shí)現(xiàn)變量值進(jìn)行調(diào)整;會(huì)對(duì)數(shù)據(jù)進(jìn)行篩選、樣本子集劃分等處理;了解數(shù)據(jù)分析特征,把握數(shù)據(jù)間相關(guān)性強(qiáng)弱的基本手段;利用壓縮樣本量、簡(jiǎn)約變量值或變量降維等方法對(duì)樣本量龐大的數(shù)據(jù)進(jìn)行精簡(jiǎn)。

(3)決策樹(shù)模型案例:了解C5.0決策樹(shù)算法,會(huì)建立決策樹(shù)模型,學(xué)會(huì)歸納和提煉現(xiàn)有數(shù)據(jù)包含的規(guī)律,建立分類預(yù)測(cè)模型,會(huì)分析結(jié)論,用于對(duì)未來(lái)新數(shù)據(jù)的預(yù)測(cè)。

(4)人工神經(jīng)網(wǎng)絡(luò)模型案例:了解人工神經(jīng)網(wǎng)絡(luò)算法,掌握人工神經(jīng)網(wǎng)絡(luò)建立的步驟,建立B-P反向神經(jīng)網(wǎng)絡(luò)模型,預(yù)測(cè)分析結(jié)果。

(5)貝葉斯模型案例:了解貝葉斯網(wǎng)絡(luò)算法,掌握貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的組成和構(gòu)建,會(huì)用TAN貝葉斯和馬爾科夫毯網(wǎng)絡(luò)解決從龐大數(shù)據(jù)中尋找輸入變量之間的相關(guān)性,輸入變量的組合取值對(duì)輸出變量的影響,用網(wǎng)絡(luò)結(jié)構(gòu)直觀展示它們的關(guān)系。

在設(shè)計(jì)小案例的同時(shí),我們還選擇學(xué)生既熟悉又感興趣的綜合項(xiàng)目案例選題:學(xué)生成績(jī)數(shù)據(jù)、圖書管理數(shù)據(jù)、電信服務(wù)數(shù)據(jù)等,讓學(xué)生帶著問(wèn)題進(jìn)一步學(xué)習(xí)課程,在學(xué)習(xí)中尋找方法解決項(xiàng)目中遇到的問(wèn)題。當(dāng)課程結(jié)束后,各項(xiàng)目組呈交項(xiàng)目數(shù)據(jù)模型和報(bào)告,且項(xiàng)目組長(zhǎng)要向所有同學(xué)按數(shù)據(jù)挖掘的六大部分講解分析報(bào)告。

3.案例驅(qū)動(dòng)教學(xué)的成效。圍繞案例進(jìn)行教學(xué)的“數(shù)據(jù)挖掘”課程除了采用案例驅(qū)動(dòng)教學(xué)法,還要增加學(xué)生的實(shí)際訓(xùn)練能力,都取得了明顯的效果,從以下五個(gè)方面體現(xiàn):①學(xué)生要主動(dòng)提出問(wèn)題,同時(shí)積極主動(dòng)地參與課堂教學(xué),才能提高學(xué)生分析和處理問(wèn)題的能力;②增強(qiáng)學(xué)生的自主學(xué)習(xí)能力,要求學(xué)生通過(guò)小組討論的形式和實(shí)際訓(xùn)練讓學(xué)生以積極主動(dòng)的態(tài)度處理和解決一些技術(shù)問(wèn)題,從而提高自學(xué)能力;③學(xué)生間要注意培養(yǎng)團(tuán)隊(duì)合作能力的,也要具有競(jìng)爭(zhēng)意識(shí);④課程學(xué)習(xí)結(jié)束后,普遍反映對(duì)利用CLEMENTIME軟件工具進(jìn)行數(shù)據(jù)挖掘的自信心提高,能夠進(jìn)一步提高對(duì)專業(yè)的認(rèn)知,獨(dú)立解決一些數(shù)據(jù)統(tǒng)計(jì)分析的問(wèn)題。

三、結(jié)束語(yǔ)

數(shù)據(jù)挖掘是統(tǒng)計(jì)專業(yè)的專業(yè)課程,其內(nèi)容繁多、深?yuàn)W,把基于案例驅(qū)動(dòng)的教學(xué)模式引入《數(shù)據(jù)挖掘》課程,學(xué)生在學(xué)習(xí)過(guò)程中,實(shí)現(xiàn)了整個(gè)數(shù)據(jù)挖掘的流程,在基于項(xiàng)目的技術(shù)應(yīng)用中深入理解了數(shù)據(jù)挖掘的理論知識(shí)。學(xué)生要將所學(xué)的理論知識(shí)和實(shí)踐相結(jié)合,從而有效提高自己的操作技能和知識(shí)水平,培養(yǎng)了自己應(yīng)用數(shù)據(jù)挖掘技術(shù)解決實(shí)際問(wèn)題的應(yīng)用能力和創(chuàng)新實(shí)踐能力。

從教學(xué)效果來(lái)看,通過(guò)將理論教學(xué)和實(shí)踐相結(jié)合,案例教學(xué)法整合了各種學(xué)習(xí)工具和教學(xué)資源,這樣才能充分發(fā)揮學(xué)生的主觀能動(dòng)性,培養(yǎng)和提高學(xué)生的主觀能動(dòng)性,同時(shí)增強(qiáng)學(xué)生分析和處理問(wèn)題的能力,今后,我們將繼續(xù)完善數(shù)據(jù)挖掘的教學(xué)案例,研究和總結(jié)教學(xué)經(jīng)驗(yàn),使整個(gè)教學(xué)環(huán)節(jié)更加完善合理。

參考文獻(xiàn):

[1]劉云霞.統(tǒng)計(jì)學(xué)專業(yè)本科生開(kāi)設(shè)“數(shù)據(jù)挖掘”課程的探討[J].吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2010,(26).

[2]覃義,楊丹江,劉憶寧.《數(shù)據(jù)挖掘》本科教學(xué)的體會(huì)與創(chuàng)新[J].科技信息,2012,(10).

[3]李國(guó)榮.培養(yǎng)統(tǒng)計(jì)專業(yè)學(xué)生動(dòng)手能力和創(chuàng)新能力的探索[J].統(tǒng)計(jì)教育,2007,(9).

[4]白忠喜,魯越青,梁偉,等.校政企共建基地開(kāi)展基于項(xiàng)目驅(qū)動(dòng)的實(shí)踐教學(xué)改革[J].中國(guó)大學(xué)教學(xué),2011,(2).

篇3

Abstract: With the advent of the era of big data, data mining has become an essential technology which has important social value in the field of business, healthcare, manufacture and administrative management, etc. In many universities, the course of data mining is an important course which is integrated with other disciplinary knowledge and plays an important role in talent cultivation. According to the characters of big data, the knowledge hierarchy data mining is presented, and case teaching and new teaching evaluation method in graduate students' data mining course are discussed. The result shows that the effect is good and it is welcomed by graduate students.

Key words: data mining; knowledge hierarchy; case teaching; teaching evaluation

0 引言

近年來(lái),傳統(tǒng)科學(xué)研究(如天文物理學(xué)、生物醫(yī)學(xué)等)、電子商務(wù)、網(wǎng)絡(luò)搜索引擎(如GOOGLE和百度等)和物聯(lián)網(wǎng)等產(chǎn)生的數(shù)據(jù)已經(jīng)以PB或ZB(10的21次方)來(lái)計(jì)算。以分布式數(shù)據(jù)倉(cāng)庫(kù)、流計(jì)算的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)為代表的最新數(shù)據(jù)存儲(chǔ)技術(shù),讓全世界的數(shù)據(jù)存儲(chǔ)量越來(lái)越大,由人、機(jī)、物三元素高度融合構(gòu)成的信息化的社會(huì)引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長(zhǎng)和數(shù)據(jù)處理模式的高度復(fù)雜化,大數(shù)據(jù)(Big Data)時(shí)代已經(jīng)到來(lái)[1]。因此,數(shù)據(jù)具有越來(lái)越強(qiáng)的可視性、可操作性和可用性,能夠越來(lái)越細(xì)致、精準(zhǔn)、全面和及時(shí)地反映人的思維、行為和情感,以及事物的特性和發(fā)展規(guī)律,要想讓這些大數(shù)據(jù)以更加有效的方式為提升人類各方面的生產(chǎn)力和生活質(zhì)量服務(wù),離不開(kāi)以非平凡的方法發(fā)現(xiàn)蘊(yùn)藏在大量數(shù)據(jù)集中的有用知識(shí)為根本目的數(shù)據(jù)挖掘技術(shù)的支撐。

市場(chǎng)上對(duì)于有大數(shù)據(jù)背景知識(shí)又懂?dāng)?shù)據(jù)挖掘技術(shù)的專業(yè)人才的需求也將越來(lái)越大,作為一名高校計(jì)算機(jī)專業(yè)教師,根據(jù)自己三年來(lái)研究生數(shù)據(jù)挖掘課程的授課經(jīng)歷,結(jié)合當(dāng)前大數(shù)據(jù)的時(shí)代背景,對(duì)數(shù)據(jù)挖掘課程教學(xué)進(jìn)行了新的思考和探索。

1 明確大數(shù)據(jù)背景下學(xué)習(xí)數(shù)據(jù)挖掘知識(shí)的重要性

1.1 大數(shù)據(jù)的定義

“大數(shù)據(jù)”是最近幾年才出現(xiàn)的新名詞,尚無(wú)統(tǒng)一的概念,維基百科上的解釋是:大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過(guò)數(shù)據(jù)的整合共享,交叉復(fù)用形成的智力資源和知識(shí)服務(wù)能力。

1.2 大數(shù)據(jù)的特征

大數(shù)據(jù)的特征可以總結(jié)為四方面,即4V。

⑴ 數(shù)據(jù)量浩大(Volume)――數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已從GB到TB再到PB級(jí),甚至開(kāi)始以EB和ZB來(lái)計(jì)數(shù)。例如:1立方毫米電子顯微鏡重建出的大腦突觸網(wǎng)絡(luò)的圖像數(shù)據(jù)就超過(guò)1PB。

⑵ 模態(tài)繁多、異構(gòu)(Variety)――大數(shù)據(jù)面向的是一切計(jì)算機(jī)可以存儲(chǔ)的數(shù)據(jù)格式,類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),包括互聯(lián)網(wǎng)上的各種網(wǎng)頁(yè)、圖片、音頻、視頻、文檔、報(bào)表,以及搜索引擎中輸入的關(guān)鍵詞、社交網(wǎng)絡(luò)中的留言、喜好和各種傳感器自動(dòng)收集的監(jiān)控結(jié)果等等。

⑶ 生成快速(Velocity)――大數(shù)據(jù)往往以數(shù)據(jù)流的形式動(dòng)態(tài)、快速地產(chǎn)生,具有很強(qiáng)的時(shí)效性,同時(shí),數(shù)據(jù)自身的狀態(tài)與價(jià)值也往往隨時(shí)空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。

⑷ 價(jià)值巨大(Value)――數(shù)據(jù)顯性或隱性的網(wǎng)絡(luò)化存在使得數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)無(wú)所不在,將對(duì)信息科學(xué)、社會(huì)科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的研究和應(yīng)用起到革命性的作用,價(jià)值巨大[2]。

Gartner、IBM和牛津大學(xué)2012年聯(lián)合的關(guān)于大數(shù)據(jù)的研究報(bào)告指出:交易數(shù)據(jù)、記錄數(shù)據(jù)、事件和電子郵件是四大主要數(shù)據(jù);數(shù)據(jù)挖掘,數(shù)據(jù)可視化,預(yù)測(cè),建模與數(shù)據(jù)優(yōu)化是五大數(shù)據(jù)能力[3]。大數(shù)據(jù)的潛在價(jià)值只有通過(guò)數(shù)據(jù)挖掘才能顯現(xiàn),因此,國(guó)外的Google、IBM、Amazon、Oracle、Microsoft、EMC;國(guó)內(nèi)的騰訊、百度、新浪、淘寶等知名企業(yè)已經(jīng)開(kāi)始著眼大數(shù)據(jù),從不同角度進(jìn)行數(shù)據(jù)挖掘,以便改善自身服務(wù),創(chuàng)造更大的商業(yè)價(jià)值。所以,作為高校教師,首先要讓學(xué)生了解大數(shù)據(jù)的基本特點(diǎn),明確數(shù)據(jù)挖掘知識(shí)和技術(shù)對(duì)當(dāng)今社會(huì)的重要意義。

2 利用概念圖,構(gòu)建數(shù)據(jù)挖掘課程的知識(shí)體系結(jié)構(gòu)

在大學(xué)里,設(shè)置一門課程,不能只關(guān)注這門課程所含的內(nèi)容,更要考慮教育培養(yǎng)學(xué)生基本專業(yè)能力、可持續(xù)發(fā)展能力等本質(zhì)性的問(wèn)題。

數(shù)據(jù)挖掘是一門結(jié)合數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、知識(shí)系統(tǒng)、信息檢索、高性能計(jì)算和可視化等多門學(xué)科知識(shí)的交叉學(xué)科[4]。而且,該課程既包括各種理論知識(shí),又離不開(kāi)相關(guān)的實(shí)踐技術(shù),整個(gè)教學(xué)過(guò)程是培養(yǎng)和提高學(xué)生的創(chuàng)新能力和綜合解決問(wèn)題能力的重要途徑。因此,針對(duì)計(jì)算機(jī)專業(yè)的學(xué)生,教學(xué)的首要任務(wù)是構(gòu)建起整個(gè)課程的核心知識(shí)結(jié)構(gòu)(如圖1所示),同時(shí),簡(jiǎn)單介紹相關(guān)的統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等計(jì)算機(jī)專業(yè)學(xué)生不太了解的非專業(yè)知識(shí)。

課程核心知識(shí)結(jié)構(gòu)是教學(xué)的主線,是學(xué)生必須要掌握的。首先,讓學(xué)生明確數(shù)據(jù)挖掘前要先經(jīng)過(guò)預(yù)處理,再存入數(shù)據(jù)倉(cāng)庫(kù);其次,針對(duì)具體情況利用相關(guān)的挖掘工具和挖掘算法進(jìn)行挖掘;最后,挖掘結(jié)果以可視化的形式有效地展示給用戶。教學(xué)的重點(diǎn)是挖掘算法和挖掘工具。對(duì)于挖掘算法,以數(shù)據(jù)挖掘國(guó)際會(huì)議ICDM(the IEEE International Conference on Data Mining)的專家評(píng)選出的十大經(jīng)典算法(見(jiàn)表1)為主[5],結(jié)合相關(guān)實(shí)例給學(xué)生介紹各種算法的基本思想和相關(guān)概念,重點(diǎn)介紹使用較多的分類、聚類、關(guān)聯(lián)、序列和機(jī)器學(xué)習(xí)這幾種算法,先為學(xué)生打下良好的理論基礎(chǔ)。

3 以實(shí)例為切入點(diǎn),注重理論結(jié)合實(shí)踐

數(shù)據(jù)挖掘課程主要針對(duì)我校研究生開(kāi)設(shè),考慮到學(xué)生就業(yè)和當(dāng)前市場(chǎng)需求,以及課程本身實(shí)踐性強(qiáng)的特點(diǎn),在教學(xué)過(guò)程中要注重理論結(jié)合實(shí)踐,注意培養(yǎng)學(xué)生解決實(shí)際問(wèn)題的能力。因此,在給學(xué)生介紹目前常用的數(shù)據(jù)挖掘工具(如IBM Intelligent Miner、SAS Enterprese Miner、SPSS Clementine、Weka等)的基礎(chǔ)上,結(jié)合市場(chǎng)應(yīng)用需求,以實(shí)例為切入點(diǎn),分別分析數(shù)據(jù)挖掘在互聯(lián)網(wǎng)日志分析、電子郵件分析、互聯(lián)網(wǎng)廣告挖掘、電子商務(wù)、移動(dòng)互聯(lián)網(wǎng)等各大領(lǐng)域中的實(shí)際應(yīng)用情況和成功案例(表2)。同時(shí),還可以從內(nèi)容挖掘、結(jié)構(gòu)挖掘和用戶訪問(wèn)模式挖掘這三個(gè)方面簡(jiǎn)單介紹WEB挖掘的基本知識(shí)[6]。這樣,課程本身就脫離了枯燥的理論,讓學(xué)生對(duì)數(shù)據(jù)挖掘有了感性認(rèn)識(shí),激發(fā)學(xué)習(xí)興趣。

⑵ 過(guò)濾垃圾郵件。\&互聯(lián)網(wǎng)廣告\&⑴ 通過(guò)大數(shù)據(jù)挖掘,精準(zhǔn)定位各類客戶的廣告形式;

⑵ 準(zhǔn)確評(píng)估廣告效果。\&電子商務(wù)\&用數(shù)據(jù)提升整體營(yíng)銷;通過(guò)日志挖掘做客戶分析;用序列算法分析商品上架時(shí)間;用聚類算法對(duì)商品分類、提升會(huì)員管理。\&移動(dòng)互聯(lián)網(wǎng)\&⑴ 鎖定用戶的數(shù)據(jù)價(jià)值,通過(guò)地理位置信息挖掘出有價(jià)值的東西;

⑵ 文本挖掘。\&]

在教學(xué)過(guò)程中,貫穿以“能力培養(yǎng)為目標(biāo)”的實(shí)踐教學(xué)理念,提供有效的網(wǎng)絡(luò)資源,讓學(xué)生自己動(dòng)手動(dòng)腦,分析成功案例,完成教師給定的虛擬挖掘任務(wù),強(qiáng)化學(xué)生參與意識(shí),教師在以學(xué)生為主體的教學(xué)過(guò)程中當(dāng)好指導(dǎo)者和激勵(lì)者,從而充分調(diào)動(dòng)學(xué)生的主觀能動(dòng)性,掌握不同應(yīng)用領(lǐng)域大數(shù)據(jù)的挖掘問(wèn)題的基本解決方法,培養(yǎng)學(xué)生的創(chuàng)新能力。例如,給學(xué)生一個(gè)文本挖掘的分類題目,讓他們熟悉從原始數(shù)據(jù)的清洗、預(yù)處理、降維、建立模型、測(cè)試、得到結(jié)論等一系列環(huán)節(jié)。

4 改革教學(xué)評(píng)價(jià),實(shí)施分類化評(píng)價(jià)

數(shù)據(jù)挖掘課程是一門融合了多個(gè)學(xué)科的實(shí)踐性很強(qiáng)的課程,對(duì)應(yīng)的考核方式應(yīng)該與其他專業(yè)課程有所區(qū)別,應(yīng)該更重視學(xué)生學(xué)習(xí)過(guò)程中的表現(xiàn)和能力的提升。

理論知識(shí)的考核注重學(xué)生對(duì)數(shù)據(jù)挖掘基本概念、挖掘流程和主要挖掘算法的掌握情況,主要以試卷考核的方式為主,注意主觀題和客觀題的數(shù)量比例,采用統(tǒng)一考核方式和評(píng)判標(biāo)準(zhǔn)。對(duì)于實(shí)踐技能的考核,主要強(qiáng)調(diào)的是學(xué)生對(duì)不同類型數(shù)據(jù)進(jìn)行挖掘時(shí)應(yīng)掌握的相關(guān)軟件使用技能的考查,考核時(shí)除了要體現(xiàn)學(xué)生對(duì)實(shí)驗(yàn)原理的掌握外,更重要的是要反映出學(xué)生在實(shí)驗(yàn)方法的掌握、設(shè)計(jì)、操作過(guò)程中的實(shí)際能力,我們?nèi)∠艘酝岩淮涡钥荚嚱Y(jié)果作為總成績(jī)的方法,而把學(xué)生平時(shí)課堂實(shí)驗(yàn)成績(jī)作為總成績(jī)的主要部分,考核成績(jī)占課程總成績(jī)一定比例。

教師教學(xué)質(zhì)量的評(píng)價(jià)與學(xué)生考核成績(jī)相對(duì)應(yīng),可采用單獨(dú)評(píng)價(jià)和統(tǒng)一評(píng)價(jià)兩種方式。單獨(dú)評(píng)價(jià)是指將社會(huì)實(shí)踐作為一個(gè)獨(dú)立的質(zhì)量評(píng)價(jià)過(guò)程對(duì)教師教學(xué)質(zhì)量進(jìn)行考核;統(tǒng)一評(píng)價(jià)是指將教師實(shí)踐教學(xué)與理論教學(xué)綜合起來(lái)統(tǒng)一考核,以一定比例計(jì)入教師總體評(píng)價(jià)。

無(wú)論是對(duì)學(xué)生,還是對(duì)教師,這種分類化的教學(xué)評(píng)價(jià)方式,不僅有利于學(xué)生實(shí)際能力的培養(yǎng),而且對(duì)教師的教學(xué)水平也是一種促進(jìn),有利于課程教學(xué)質(zhì)量的不斷提高。

5 結(jié)束語(yǔ)

大數(shù)據(jù)時(shí)代,誰(shuí)能發(fā)掘出數(shù)據(jù)背后的巨大商業(yè)和社會(huì)價(jià)值,誰(shuí)就能在激烈的市場(chǎng)競(jìng)爭(zhēng)中處于優(yōu)勢(shì)。數(shù)據(jù)挖掘作為計(jì)算機(jī)應(yīng)用專業(yè)的研究生核心課程之一,也是學(xué)生今后就業(yè)必需的專業(yè)技能之一。以往的教學(xué)過(guò)程理論性強(qiáng),枯燥乏味,考核形式單一,學(xué)生學(xué)習(xí)熱情普遍不高,不利于學(xué)生專業(yè)能力的培養(yǎng)。本文結(jié)合當(dāng)前大數(shù)據(jù)的時(shí)代背景,在構(gòu)架課程核心知識(shí)體系的前提下,結(jié)合實(shí)際應(yīng)用領(lǐng)域和案例,分析數(shù)據(jù)挖掘常見(jiàn)算法和常用工具,強(qiáng)調(diào)學(xué)生的參與和主觀能動(dòng)性的發(fā)揮,而采用分類化的教學(xué)評(píng)價(jià)又能比較客觀、公正地評(píng)價(jià)學(xué)生對(duì)課程知識(shí)和專業(yè)實(shí)踐技能的掌握情況以及教師的教學(xué)效果。課程開(kāi)設(shè)三年來(lái)的教學(xué)實(shí)踐證明,學(xué)生綜合運(yùn)用計(jì)算機(jī)專業(yè)知識(shí)的能力得到提高,理論與實(shí)踐結(jié)合的創(chuàng)新能力得到鍛煉,教師在教學(xué)過(guò)程中不斷完善了自身的知識(shí)結(jié)構(gòu),提高了教學(xué)水平,實(shí)現(xiàn)了教學(xué)相長(zhǎng),得到了學(xué)生的好評(píng)。

參考文獻(xiàn):

[1] Anand Rajaraman, Jeffrey David Ullman.大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].人民郵電出版社,2012.

[2] 李國(guó)杰.大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2012.8:8-15

[3] Jiawei Han,Micheline Kamber,Jian Pei等.數(shù)據(jù)挖掘概念與技術(shù)(第3版)[M].機(jī)械工業(yè)出版社,2012.

篇4

一、引言

大數(shù)據(jù)時(shí)代最為寶貴的資源是數(shù)據(jù),如何有效地分析利用海量數(shù)據(jù)將是數(shù)據(jù)挖掘需要解決的全新問(wèn)題。數(shù)據(jù)挖掘的相關(guān)算法已非常成熟,并且在各個(gè)領(lǐng)域已取得了廣泛應(yīng)用。但是大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘理論與算法需要針對(duì)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、多媒體數(shù)據(jù)具有更加強(qiáng)大的運(yùn)算和處理能力。因此,數(shù)據(jù)挖掘技術(shù)及應(yīng)用等相關(guān)課程應(yīng)與時(shí)俱進(jìn)地適應(yīng)大數(shù)據(jù)的要求,對(duì)數(shù)據(jù)挖掘相關(guān)課程的教學(xué)內(nèi)容進(jìn)行變革。

二、大數(shù)據(jù)環(huán)境特征

Gartner認(rèn)為大數(shù)據(jù)是海量的、高增長(zhǎng)率和多樣化的信息資產(chǎn),需要新的處理模式才能實(shí)現(xiàn)對(duì)其發(fā)現(xiàn)和優(yōu)化。維基百科認(rèn)為大數(shù)據(jù)所涉及的資料量規(guī)模巨大,以至于目前無(wú)法通過(guò)主流軟件工具,在一定合理的時(shí)間內(nèi)對(duì)其獲取、管理、處理并整理成為能起到?jīng)Q策支持作用的數(shù)據(jù)資源。大數(shù)據(jù)是包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)?;驈?fù)雜程度超出了常用技術(shù),麥肯錫認(rèn)為大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具對(duì)其內(nèi)容進(jìn)行采集、存儲(chǔ)、管理和分析的數(shù)據(jù)集合,因此需要通過(guò)數(shù)據(jù)挖掘?qū)崿F(xiàn)對(duì)大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集合進(jìn)行分析,以便提供有用的數(shù)據(jù)洞察。大數(shù)據(jù)一般具有四個(gè)主要特征:①數(shù)據(jù)體量巨大(Volume),隨著時(shí)間的推移,衡量數(shù)據(jù)體量的單位從G,T,P到E。②數(shù)據(jù)種類繁多(Variety),互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、傳感網(wǎng)的發(fā)展,使數(shù)據(jù)類型變得更加復(fù)雜,不僅包括傳統(tǒng)的關(guān)系數(shù)據(jù)類型,也包括以網(wǎng)頁(yè)、視頻、音頻、E-mail等形式存在的未加工的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。③流動(dòng)速度快(Velocity),面對(duì)快速動(dòng)態(tài)變化的流式數(shù)據(jù),獲取、存儲(chǔ)及挖掘有效信息的速度都難以用傳統(tǒng)的系統(tǒng)進(jìn)行處理。④價(jià)值密度低(Value),數(shù)據(jù)量呈指數(shù)增長(zhǎng)加大了獲取有用信息的難度,如何快速高效發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的潛在有價(jià)值模式更加困難。

三、數(shù)據(jù)挖掘系統(tǒng)

數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、事先不知道,但又潛在有價(jià)值的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘系統(tǒng)最初僅支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法,發(fā)展為與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)之間存在有效接口而支持?jǐn)?shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),又能進(jìn)一步挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),而研究開(kāi)發(fā)分布式、移動(dòng)式的數(shù)據(jù)挖掘系統(tǒng)成為第四代數(shù)據(jù)挖掘系統(tǒng)的重要課題之一,使得數(shù)據(jù)挖掘系統(tǒng)與其他系統(tǒng)聯(lián)合提供決策支持的功能。根據(jù)數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的耦合程度,可以將數(shù)據(jù)挖掘系統(tǒng)分為不耦合、松散耦合、半緊耦合和緊密耦合四種結(jié)構(gòu)。面對(duì)大數(shù)據(jù)環(huán)境,半緊密耦合和緊密耦合是在性能和效率方面比較理想的。半緊密耦合是指除了將數(shù)據(jù)挖掘系統(tǒng)連接到一個(gè)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)之外,一些基本的數(shù)據(jù)挖掘原語(yǔ)還可以在數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中實(shí)現(xiàn),這種設(shè)計(jì)將提高數(shù)據(jù)挖掘系統(tǒng)的性能。緊密耦合系統(tǒng)是指將數(shù)據(jù)挖掘系統(tǒng)平滑地集成到數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,數(shù)據(jù)挖掘子系統(tǒng)被視為信息系統(tǒng)的一個(gè)部分。根據(jù)數(shù)據(jù)挖掘的研究體系(如圖1所示),給出數(shù)據(jù)挖掘相關(guān)課程的主要講授內(nèi)容,包括:預(yù)測(cè)(Forecast),關(guān)聯(lián)規(guī)則(Association Rules),聚類分析(Clustering Analysis),粗糙集(Rough Sets),進(jìn)化計(jì)算(Evolutionary Computation,EC),灰色系統(tǒng)(Grey System),模糊邏輯(Fuzzy Logic),人工智能與機(jī)器學(xué)習(xí)(Artificial Intelligence,Machine Learning),決策樹(shù)(Decision Tree),統(tǒng)計(jì)分析(Statistical Analysis),知識(shí)獲取、知識(shí)表示、知識(shí)推理和知識(shí)搜索(Knowledge Acquisition,Representation,Reasoning and Search),決策與控制(Decision and Control),可視化技術(shù)(Visual Technology),并行計(jì)算(Parallel Computing)和海量存儲(chǔ)(Mass Storage)等。

四、大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘

大數(shù)據(jù)的“4V“特征表明對(duì)海量的數(shù)據(jù)分析將更加復(fù)雜、更追求速度、更注重實(shí)效。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘應(yīng)實(shí)現(xiàn)海量數(shù)據(jù)建模,通過(guò)數(shù)理模型對(duì)海量數(shù)據(jù)進(jìn)行整理與分析,發(fā)掘在海量數(shù)據(jù)之中隱藏的分析與決策所需的規(guī)律性知識(shí)。將數(shù)據(jù)挖掘作為大數(shù)據(jù)環(huán)境下重要的研究方法或發(fā)現(xiàn)新知識(shí)的技術(shù)工具,而不是把數(shù)據(jù)本身當(dāng)成研究目標(biāo),與傳統(tǒng)數(shù)據(jù)挖掘方法有密切聯(lián)系又有本質(zhì)區(qū)別。因此在大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘相關(guān)課程教學(xué)中應(yīng)注意以下變化:①數(shù)據(jù)預(yù)處理:除利用數(shù)據(jù)倉(cāng)庫(kù)加載傳統(tǒng)數(shù)據(jù),針對(duì)大數(shù)據(jù)分析所涉及到的非結(jié)構(gòu)化數(shù)據(jù),應(yīng)保證輸入數(shù)據(jù)的完整性和相關(guān)的ETL(Extraction-Transformation-Loading,數(shù)據(jù)提取、轉(zhuǎn)換和加載)流程的正確性。②數(shù)據(jù)存儲(chǔ)機(jī)制:通過(guò)多維立方體實(shí)現(xiàn)結(jié)構(gòu)化的多維數(shù)據(jù)組織與管理,多數(shù)是建立在關(guān)系數(shù)據(jù)模型和關(guān)系數(shù)據(jù)庫(kù)基礎(chǔ)之上。而需將非結(jié)構(gòu)化數(shù)據(jù)考慮進(jìn)大數(shù)據(jù)分析時(shí),應(yīng)采用分布式文件系統(tǒng),以流的形式訪問(wèn)文件系統(tǒng)中的數(shù)據(jù),提供訪問(wèn)擁有超大數(shù)據(jù)集的高傳輸率的應(yīng)用程序(如Hadoop和其他開(kāi)源的分布式系統(tǒng)基礎(chǔ)架構(gòu))。③數(shù)據(jù)挖掘算法處理能力:面對(duì)數(shù)據(jù)規(guī)模的增大,需解決數(shù)據(jù)挖掘算法的效率問(wèn)題,提高算法的有效性和可伸縮性。④數(shù)據(jù)挖掘算法處理效率:數(shù)據(jù)規(guī)模的不斷增大導(dǎo)致分析處理的時(shí)間相應(yīng)加長(zhǎng),而大數(shù)據(jù)條件下對(duì)信息處理的時(shí)效性要求越來(lái)越高,應(yīng)建立簡(jiǎn)單有效的人工智能算法和新的問(wèn)題求解方法。

五、小結(jié)

大數(shù)據(jù)時(shí)代的到來(lái)對(duì)數(shù)據(jù)挖掘的研究和教學(xué)都提出了新的挑戰(zhàn)。應(yīng)從數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)機(jī)制、數(shù)據(jù)挖掘算法處理能力和效率等多個(gè)方面進(jìn)行創(chuàng)新,以適應(yīng)大數(shù)據(jù)環(huán)境下知識(shí)管理與智能決策的需要。

參考文獻(xiàn):

[1]陳燕.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京:清華大學(xué)出版社,2011.

[2]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報(bào),2013,(25):142-146.

篇5

文章編號(hào):1672-5913(2007)14-0027-03

1引言

數(shù)據(jù)挖掘是一門綜合性的交叉學(xué)科,它融合了概率統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)倉(cāng)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)結(jié)構(gòu)、高性能計(jì)算、數(shù)據(jù)可視化以及面向?qū)ο蠹夹g(shù)等,在保險(xiǎn)業(yè)、電信業(yè)、交通業(yè)、零售業(yè)、銀行業(yè)正在被越來(lái)越廣泛深入地使用,同時(shí)在生物學(xué)、天文學(xué)、地理學(xué)等領(lǐng)域也逐漸顯現(xiàn)出技術(shù)優(yōu)勢(shì),特別是在客戶關(guān)系管理系統(tǒng)、個(gè)性化網(wǎng)站設(shè)計(jì)、電子商務(wù)系統(tǒng)、搜索引擎等方面數(shù)據(jù)挖掘技術(shù)顯示出了獨(dú)特的魅力。數(shù)據(jù)挖掘技術(shù)正在以一種全新的概念改變著計(jì)算機(jī)應(yīng)用的方式。

從最近計(jì)算機(jī)技術(shù)的發(fā)展以及學(xué)生就業(yè)方面來(lái)看,對(duì)本校的應(yīng)用性本科生開(kāi)設(shè)“數(shù)據(jù)挖掘技術(shù)”課程迫在眉睫。但數(shù)據(jù)挖掘給人的感覺(jué)就是“高深莫測(cè)”,當(dāng)前數(shù)據(jù)挖掘領(lǐng)域主要是博士生、碩士生研究的領(lǐng)域,數(shù)據(jù)挖掘課程也只在一些重點(diǎn)大學(xué)的研究生或高年級(jí)的本科生中開(kāi)設(shè),應(yīng)用型本科院校以及一些高職高專幾乎都沒(méi)有開(kāi)設(shè)此類課程。這限定了數(shù)據(jù)挖掘作為一門既有理論又有實(shí)踐價(jià)值學(xué)科的應(yīng)用和推廣,筆者認(rèn)為很可惜。從計(jì)算機(jī)專業(yè)的學(xué)生的畢業(yè)設(shè)計(jì)以及就業(yè)角度分析,相當(dāng)多的同學(xué)以后會(huì)從事電子商務(wù)類軟件的開(kāi)發(fā),而這類應(yīng)用目前都漸漸基于Web作為應(yīng)用平臺(tái),面對(duì)的是海量的數(shù)據(jù)信息,因此讓學(xué)生掌握數(shù)據(jù)挖掘的思想和方法對(duì)提高計(jì)算機(jī)素養(yǎng)很有必要。即使將來(lái)從事控制、通信、游戲、圖像處理等軟件開(kāi)發(fā),數(shù)據(jù)挖掘的思想和方法也很容易找到用武之地。

2數(shù)據(jù)挖掘課程開(kāi)設(shè)的可行性分析

從計(jì)算機(jī)技術(shù)發(fā)展以及學(xué)生就業(yè)反饋的信息,筆者覺(jué)得數(shù)據(jù)挖掘的思想、方法以及算法對(duì)應(yīng)用型本科生是很重要的,并且讓學(xué)生掌握好這門課程也是完全可能的。我校從1998年以來(lái)一直在高年級(jí)本科生中開(kāi)設(shè)了“人工智能”課程,但從教學(xué)效果上來(lái)看,很不理想?!皵?shù)據(jù)挖掘技術(shù)”這門課程在不少地方很像“人工智能”,“數(shù)據(jù)挖掘技術(shù)”課程中的一些思想就是從“人工智能”中發(fā)展過(guò)來(lái)的,但是“數(shù)據(jù)挖掘技術(shù)”課程與“人工智能”課程有一個(gè)本質(zhì)的區(qū)別,就是數(shù)據(jù)挖掘從誕生的一開(kāi)始就是面向大量的、實(shí)際的數(shù)據(jù)庫(kù)信息,因此,具有極強(qiáng)的應(yīng)用性,如果將“數(shù)據(jù)挖掘技術(shù)”課程看做是“數(shù)據(jù)庫(kù)技術(shù)”課程的自然延伸,同時(shí)充分利用數(shù)據(jù)結(jié)構(gòu)、人工智能、面向?qū)ο蠹夹g(shù)與方法、Web技術(shù)、概率統(tǒng)計(jì)等課程的基礎(chǔ),就能夠?qū)ⅰ皵?shù)據(jù)挖掘技術(shù)”課程開(kāi)設(shè)好。于是兩年前,筆者在應(yīng)用型本科生中做了嘗試,就是取消原來(lái)的“人工智能”課程,取而代之的是“數(shù)據(jù)挖掘技術(shù)”課程,從兩年的教學(xué)實(shí)踐以及教學(xué)效果上看,行之有效。并且在教學(xué)中發(fā)現(xiàn),雖然數(shù)據(jù)挖掘技術(shù)要用到人工智能的一些思想和方法,但沒(méi)有“人工智能”課程作為前導(dǎo)課程,沒(méi)有任何影響,因?yàn)?,?shù)據(jù)挖掘中的一些人工智能思想在“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)中是自成體系的,并且是以比“人工智能”中的方法更加簡(jiǎn)單、更加直接、更加面向應(yīng)用的方式。開(kāi)設(shè)“數(shù)據(jù)挖掘技術(shù)”課程必須以下列的課程作為基礎(chǔ)(前導(dǎo)課程),當(dāng)然這些課程都是一些常規(guī)課程。

1) 必須深入學(xué)習(xí)一門程序設(shè)計(jì)語(yǔ)言,通過(guò)這門語(yǔ)言的學(xué)習(xí)可以掌握程序設(shè)計(jì)的基礎(chǔ)知識(shí),并且掌握面向?qū)ο笏枷腴_(kāi)發(fā)的精髓,能夠進(jìn)行可視化程序設(shè)計(jì)。學(xué)習(xí)程序設(shè)計(jì)絕不是記住程序設(shè)計(jì)語(yǔ)言的語(yǔ)法就行了,而要努力做到將應(yīng)用中的思想變?yōu)槌绦?。這一點(diǎn)是計(jì)算機(jī)專業(yè)學(xué)生的基本素養(yǎng)。這一環(huán)節(jié)沒(méi)有做好,其余的計(jì)算機(jī)專業(yè)的專業(yè)課程,如數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)、數(shù)據(jù)庫(kù)原理、編譯原理、軟件工程等就無(wú)法學(xué)習(xí),即使學(xué)了,也不能真正掌握。筆者從計(jì)算機(jī)發(fā)展和應(yīng)用角度,推薦學(xué)習(xí)C/C++和Java,要求對(duì)C++的模板以及STL或Java的數(shù)據(jù)結(jié)構(gòu)類(在Java的util包中)能夠較好掌握。

2) 掌握“數(shù)據(jù)結(jié)構(gòu)”課程,特別是“數(shù)據(jù)結(jié)構(gòu)”課程中的樹(shù)的特點(diǎn)和應(yīng)用。在“數(shù)據(jù)結(jié)構(gòu)”課程中,樹(shù)主要以二叉樹(shù)為主,對(duì)于一般的樹(shù),在當(dāng)前的“數(shù)據(jù)結(jié)構(gòu)”課程的教學(xué)中都是將一般的樹(shù)轉(zhuǎn)化為二叉樹(shù)來(lái)進(jìn)行處理的,但是在數(shù)據(jù)挖掘中這樣不太方便。數(shù)據(jù)挖掘中的很多算法都涉及到樹(shù)的應(yīng)用,并且大多都是不太規(guī)則的樹(shù),在數(shù)據(jù)挖掘中,采用樹(shù)的思想與Java中的數(shù)據(jù)結(jié)構(gòu)類或C++中的STL相結(jié)合的方法,能夠得到很好的效果。

3) 掌握“數(shù)據(jù)庫(kù)技術(shù)”課程中數(shù)據(jù)庫(kù)操作的特點(diǎn)和應(yīng)用。數(shù)據(jù)挖掘的對(duì)象主要是數(shù)據(jù)庫(kù)中的數(shù)據(jù),但作為數(shù)據(jù)挖掘?qū)ο蟮臄?shù)據(jù)庫(kù)的數(shù)據(jù)信息量往往很大,因此,為了提高挖掘的效率,需要建立數(shù)據(jù)倉(cāng)庫(kù),或者需要在算法上加工,盡量減少掃描數(shù)據(jù)庫(kù)的次數(shù)。

4) 掌握“Web技術(shù)”。這是因?yàn)镮nternet已經(jīng)廣泛應(yīng)用并且深入人心,未來(lái)的軟件相當(dāng)多的都是基于Web平臺(tái)之上,因此,對(duì)于Web挖掘不僅重要,而且具有直接的應(yīng)用價(jià)值。當(dāng)前Internet上的軟件如一些知名網(wǎng)站、搜索引擎以及一些電子商務(wù)系統(tǒng),采用了數(shù)據(jù)挖掘技術(shù),得到了很多有價(jià)值的信息或提高了個(gè)性化能力,大大增強(qiáng)了企業(yè)的競(jìng)爭(zhēng)力。因此,掌握“Web技術(shù)”課程對(duì)Web挖掘很有裨益。

5) 熟悉“概率統(tǒng)計(jì)”課程中的思維方式,對(duì)各種分布以及條件概率能夠熟練掌握,在數(shù)據(jù)挖掘中的分類、關(guān)聯(lián)規(guī)則等領(lǐng)域很多挖掘方法都靈活運(yùn)用了概率統(tǒng)計(jì)中的思想和方法。

從“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)實(shí)踐中明顯看出,主要需要以上幾門課程,并且教學(xué)結(jié)束后發(fā)現(xiàn),學(xué)生不僅能夠掌握數(shù)據(jù)挖掘的思想、方法以及算法,通過(guò)對(duì)一些主要的挖掘算法的實(shí)現(xiàn),對(duì)“數(shù)據(jù)庫(kù)技術(shù)”、“程序設(shè)計(jì)語(yǔ)言”、“數(shù)據(jù)結(jié)構(gòu)”、“Web技術(shù)”以及“概率統(tǒng)計(jì)”掌握得更加深刻,將“數(shù)據(jù)挖掘技術(shù)”作為“數(shù)據(jù)庫(kù)技術(shù)”的自然延伸,是“程序設(shè)計(jì)語(yǔ)言”、“數(shù)據(jù)結(jié)構(gòu)”、“Web技術(shù)”以及“概率統(tǒng)計(jì)”的綜合運(yùn)用得到良好效果。

3 “數(shù)據(jù)挖掘技術(shù)”課程的設(shè)置

一門課程的設(shè)置,不僅要根據(jù)當(dāng)前計(jì)算機(jī)技術(shù)的發(fā)展,同時(shí)也要根據(jù)當(dāng)前學(xué)生的就業(yè)需求,充分考慮到應(yīng)用型本科學(xué)生的特點(diǎn)。兩年前,經(jīng)過(guò)多方面的考慮以及參考了各種國(guó)內(nèi)國(guó)外數(shù)據(jù)挖掘的教材以及論文后決定,“數(shù)據(jù)挖掘技術(shù)”課程教學(xué)學(xué)時(shí)定為32課時(shí),講課22學(xué)時(shí),上機(jī)實(shí)驗(yàn)10學(xué)時(shí)。在這個(gè)總的學(xué)時(shí)定下來(lái)之后,就是對(duì)“數(shù)據(jù)挖掘技術(shù)”課程的內(nèi)容設(shè)計(jì),這是最重要的環(huán)節(jié)。精選出的內(nèi)容不僅要反映數(shù)據(jù)挖掘的特點(diǎn)以及最新發(fā)展,還要結(jié)合應(yīng)用型本科生的特點(diǎn),要具有很強(qiáng)的針對(duì)性,重點(diǎn)要突出,要能夠“學(xué)以致用”。最后“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)內(nèi)容如下:

1) 數(shù)據(jù)挖掘綜述2學(xué)時(shí)。本講側(cè)重于從兩、三個(gè)具體應(yīng)用領(lǐng)域進(jìn)行分析得出采用數(shù)據(jù)挖掘技術(shù)的重要性與必要性,可以選取客戶關(guān)系管理、體育競(jìng)技、信息安全和商業(yè)欺詐等作為案例,然后給出完整的數(shù)據(jù)挖掘定義和數(shù)據(jù)挖掘技術(shù)的分類,以及數(shù)據(jù)挖掘需要的一些前導(dǎo)課程的知識(shí)要點(diǎn)。

2) 數(shù)據(jù)挖掘過(guò)程及當(dāng)前數(shù)據(jù)挖掘的軟件工具2學(xué)時(shí)。數(shù)據(jù)挖掘的過(guò)程是數(shù)據(jù)抽取與集成、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)的選擇與整理、數(shù)據(jù)挖掘以及結(jié)論評(píng)估。本講重點(diǎn)講解挖掘的過(guò)程,強(qiáng)調(diào)數(shù)據(jù)預(yù)處理對(duì)挖掘的重要意義,對(duì)于缺省的值、殘缺的值等的處理方法。讓學(xué)生對(duì)數(shù)據(jù)挖掘的整體過(guò)程有清楚的理解。然后介紹一下當(dāng)前流行的商品化數(shù)據(jù)挖掘軟件如IBM的IntelligentMiner和加拿大Simon Fraser 大學(xué)的DBMiner。

3) 關(guān)聯(lián)規(guī)則挖掘與序列模式挖掘6學(xué)時(shí)。在介紹關(guān)聯(lián)規(guī)則原理的基礎(chǔ)上,主要介紹著名算法Apriori及其改進(jìn)、FP_Tree算法、用于序列模式挖掘的AprioriSome算法。每個(gè)算法需要2學(xué)時(shí),對(duì)每個(gè)算法要進(jìn)行徹底分析,不僅能夠理解算法的原理、思想以及過(guò)程,還要分析算法提出人為什么會(huì)提出這種算法,在日常生活中的含義是什么,算法的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及如何用Java或C++來(lái)編程實(shí)現(xiàn)該算法。最后,對(duì)多層次關(guān)聯(lián)以及數(shù)量關(guān)聯(lián)規(guī)則挖掘做個(gè)簡(jiǎn)單介紹即可。

4) 分類技術(shù)4學(xué)時(shí)。介紹分類的原理,主要講解ID3和C4.5、樸素貝葉斯分類,簡(jiǎn)單介紹一下BP神經(jīng)網(wǎng)絡(luò)的分類。對(duì)于C4.5要求能夠從原理上把握整個(gè)算法,能夠進(jìn)行連續(xù)值的離散化處理,理解C4.5比ID3的優(yōu)勢(shì)所在;對(duì)于樸素貝葉斯分類,要深刻理解該分類的原理以及貝葉斯信念網(wǎng)絡(luò)的工作原理。特別的,對(duì)于FP_TREE以及C4.5算法的實(shí)現(xiàn),需要用到不規(guī)則樹(shù),提出用C++或Java解決這種不規(guī)則樹(shù)的方法。

5) 聚類技術(shù)4學(xué)時(shí)。在介紹聚類的重要性和分類的基礎(chǔ)上主要介紹劃分聚類PAM算法思想以及基于密度聚類DBSCAN,對(duì)于當(dāng)前重要的聚類STING和CLIQUE做個(gè)簡(jiǎn)單介紹。最后,比較聚類和分類的不同之處。

6) Web挖掘與個(gè)性化推薦技術(shù)4學(xué)時(shí)。對(duì)于Web挖掘從內(nèi)容挖掘、訪問(wèn)行為挖掘和結(jié)構(gòu)挖掘三個(gè)方面進(jìn)行講解,重點(diǎn)講解個(gè)性化技術(shù)。對(duì)基于最小關(guān)聯(lián)規(guī)則集的個(gè)性化推薦以及基于協(xié)作篩的個(gè)性化推薦作深入剖析,并指出在當(dāng)今網(wǎng)站設(shè)計(jì)中的重要意義。

7) 上機(jī)實(shí)驗(yàn)設(shè)計(jì)。精選五個(gè)上機(jī)實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)是關(guān)聯(lián)規(guī)則的Apriori算法或FP_Tree算法的實(shí)現(xiàn),兩個(gè)任選一個(gè),如果選擇Apriori的話,需要采取一些效率改進(jìn)措施;第二個(gè)實(shí)驗(yàn)是序列模式挖掘中的AprioriSome算法;第三個(gè)實(shí)驗(yàn)是分類技術(shù)中的ID3或C4.5算法,這兩個(gè)算法的主體相同,任做一個(gè)即可;第四個(gè)實(shí)驗(yàn)是聚類中的PAM或DBSCAN算法,兩個(gè)任選一個(gè);第五個(gè)實(shí)驗(yàn)是利用協(xié)作篩進(jìn)行個(gè)性化網(wǎng)站的智能推薦。以上五個(gè)實(shí)驗(yàn)每個(gè)實(shí)驗(yàn)2學(xué)時(shí),建議編程語(yǔ)言采用Java或C++,最后挖掘結(jié)果具有可理解性。

當(dāng)然,以上的課程內(nèi)容設(shè)計(jì)會(huì)隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,不斷進(jìn)行微調(diào),以適應(yīng)不斷變化的計(jì)算機(jī)技術(shù)發(fā)展與社會(huì)需求。

4 “數(shù)據(jù)挖掘技術(shù)”教學(xué)實(shí)踐總結(jié)

兩年前,雖然已對(duì)“數(shù)據(jù)挖掘技術(shù)”課程作了充分準(zhǔn)備,但在剛開(kāi)設(shè)這門課程的時(shí)候,很擔(dān)心這門“高深莫測(cè)”的課程的教學(xué)效果。但經(jīng)過(guò)兩年的教學(xué)實(shí)踐發(fā)現(xiàn),這門課程的教學(xué)效果比預(yù)想的還要好。通過(guò)對(duì)該門課程的學(xué)習(xí),學(xué)生不僅基本掌握了數(shù)據(jù)挖掘的基本原理和算法,同時(shí)對(duì)以前的一些主干課程如數(shù)據(jù)結(jié)構(gòu)的理解和運(yùn)用有了非常深刻的認(rèn)識(shí)。更為重要的是,本課程的五個(gè)實(shí)驗(yàn)都是數(shù)據(jù)挖掘領(lǐng)域中最經(jīng)典、最重要的算法,通過(guò)對(duì)這些算法的編程實(shí)現(xiàn),不僅理解了數(shù)據(jù)挖掘關(guān)鍵算法的精髓,同時(shí),這些數(shù)據(jù)挖掘算法實(shí)現(xiàn)的程序經(jīng)過(guò)不斷改進(jìn)、加工,性能不斷提高,由于都是源代碼,可以將這些算法應(yīng)用到一些實(shí)用的軟件系統(tǒng)如客戶關(guān)系管理系統(tǒng)、個(gè)性化網(wǎng)站中去,收到良好效果。此外,在網(wǎng)上的一些數(shù)據(jù)挖掘論壇中,經(jīng)常看到一些初學(xué)數(shù)據(jù)挖掘的研究生或技術(shù)人員很想看一看數(shù)據(jù)挖掘經(jīng)典算法的具體程序?qū)崿F(xiàn),我們也將這兩年不斷改進(jìn)的程序源代碼作為免費(fèi)資源贈(zèng)送給了不少同行,也為數(shù)據(jù)挖掘的推廣應(yīng)用貢獻(xiàn)了微薄之力。

5結(jié)束語(yǔ)

“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)嘗試目前主要針對(duì)的是本校應(yīng)用型計(jì)算機(jī)專業(yè)本科生,雖然收到了良好的效果,但“數(shù)據(jù)挖掘技術(shù)”絕不僅僅是計(jì)算機(jī)專業(yè)學(xué)生才需要掌握的課程,對(duì)于我校通信系、電力系、自動(dòng)化系等工科專業(yè),經(jīng)濟(jì)系、管理系甚至一些文科類的學(xué)生也很有價(jià)值,因此,怎樣在非計(jì)算機(jī)專業(yè)的應(yīng)用型本科生中開(kāi)設(shè)好這門新興課程,甚至在高職高專學(xué)生中也開(kāi)設(shè)好這門課程,則是需要作進(jìn)一步的探索和嘗試。

參考文獻(xiàn):

[1] 毛國(guó)君. 數(shù)據(jù)挖掘原理與算法[M]. 北京:清華大學(xué)出版社,2005.

[2] 陳文偉. 數(shù)據(jù)挖掘技術(shù)[M]. 北京工業(yè)大學(xué)出版社,2002.

[3] 余力. 電子商務(wù)個(gè)性化[M]. 北京:清華大學(xué)出版社,2007.

A Test to Applied College Students on Teaching Data Mining

XU Jin-bao

(Dept. of Computer Engineering, Nanjing Institute of Technology,

Nanjing 211100,China)

篇6

隨著數(shù)據(jù)挖掘、商務(wù)智能技術(shù)的快速發(fā)展與廣泛應(yīng)用,亟需對(duì)信息管理專業(yè)的本科生加強(qiáng)對(duì)相關(guān)知識(shí)的介紹,此時(shí)進(jìn)行課程改革,調(diào)整、增加授課學(xué)時(shí)和實(shí)踐環(huán)節(jié)有重要意義。數(shù)據(jù)挖掘是一門與多學(xué)科交叉的新興計(jì)算機(jī)專業(yè)課程,其課程內(nèi)容豐富、應(yīng)用范圍廣、實(shí)踐工具類型繁多。在有限授課時(shí)間內(nèi),如何選擇適合于信息管理專業(yè)的本科生的課程內(nèi)容、案例與軟件工具,選用何種有針對(duì)性的教學(xué)方法,是進(jìn)行數(shù)據(jù)挖掘課程設(shè)計(jì)需要解決的主要問(wèn)題。

一、國(guó)內(nèi)外數(shù)據(jù)挖掘類課程建設(shè)研究分析

近年來(lái),數(shù)據(jù)挖掘與商務(wù)智能技術(shù)發(fā)展迅速,充分借鑒國(guó)外相關(guān)研究,尤其是ACM SIGKDD課程委員會(huì)對(duì)數(shù)據(jù)挖據(jù)課程建設(shè)建議,對(duì)進(jìn)行數(shù)據(jù)挖掘類課程的教學(xué)建設(shè)研究有重要意義。ACM(美國(guó)計(jì)算機(jī)協(xié)會(huì))于1998年成立了SIGKDD(知識(shí)發(fā)現(xiàn)興趣小組),致力于知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘的相關(guān)研究,ACM SIGKDD課程委員會(huì)連續(xù)多年多次更新其主要課程――數(shù)據(jù)挖據(jù)課程的建議,其中委員會(huì)將數(shù)據(jù)挖掘課程分為基礎(chǔ)部分與高級(jí)主題,基礎(chǔ)部分覆蓋了數(shù)據(jù)挖掘的基本方法,高級(jí)主題既有數(shù)據(jù)挖掘基本方法的深入研究,又有更高級(jí)算法的介紹。國(guó)外很多大學(xué)的計(jì)算機(jī)科學(xué)學(xué)院、商學(xué)院都開(kāi)設(shè)了數(shù)據(jù)挖掘類課程并同時(shí)進(jìn)行相關(guān)研究。波士頓大學(xué)開(kāi)設(shè)了“數(shù)據(jù)管理與商務(wù)智能”課程,課程主要包括基礎(chǔ)、核心技術(shù)、應(yīng)用三部分。許多國(guó)外著名大學(xué)建立了教學(xué)管理系統(tǒng),提供大量的案例、在線討論和在線輔導(dǎo)功能。國(guó)內(nèi)很多學(xué)校都開(kāi)設(shè)了數(shù)據(jù)挖掘的相關(guān)課程,我國(guó)大多數(shù)高校的課程大綱內(nèi)容與國(guó)外大致相同,只是在實(shí)踐部分選用了不同的商務(wù)案例。數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域廣泛,因此可以根據(jù)開(kāi)課學(xué)院和專業(yè)選擇合適的實(shí)例。

二、根據(jù)信息管理專業(yè)本科生培養(yǎng)要求確定課程目標(biāo)

數(shù)據(jù)挖掘課程是一門綜合性很強(qiáng)的前沿學(xué)科,對(duì)計(jì)算機(jī)軟硬件、數(shù)據(jù)庫(kù)、人工智能技術(shù)、統(tǒng)計(jì)學(xué)算法、優(yōu)化算法等基礎(chǔ)知識(shí)都有較高的要求。因此該門課程開(kāi)設(shè)在學(xué)生大三下學(xué)期,既有相關(guān)知識(shí)的基礎(chǔ),又為大四做畢業(yè)設(shè)計(jì)提供了一種思路。信息管理專業(yè)是計(jì)算機(jī)與管理相結(jié)合的專業(yè),旨在培養(yǎng)具備信息系統(tǒng)開(kāi)發(fā)能力與信息資源分析與處理能力的綜合應(yīng)用型人才。對(duì)信息管理專業(yè)的學(xué)生而言,本課程主要的目標(biāo)是數(shù)據(jù)挖掘算法原理理解、數(shù)據(jù)挖掘算法在商務(wù)管理問(wèn)題中的應(yīng)用以及常用數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘軟件的熟練應(yīng)用和二次開(kāi)發(fā)。

三、基于模塊化方法的課程內(nèi)容分析

模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來(lái)設(shè)計(jì)教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標(biāo)指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標(biāo)準(zhǔn)或規(guī)則進(jìn)行分解,使其成為多個(gè)相對(duì)獨(dú)立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。學(xué)生可以根據(jù)個(gè)人興趣和職業(yè)取向在不同模塊之間進(jìn)行選擇和搭配,從而實(shí)現(xiàn)不同的教學(xué)目標(biāo)和人才培養(yǎng)要求[1,2]。模塊化教學(xué)本質(zhì)上是以知識(shí)點(diǎn)與實(shí)踐的細(xì)化為出發(fā)點(diǎn)研究的。商務(wù)智能方法本身非常豐富,實(shí)踐應(yīng)用也是課程的主要特點(diǎn)之一,因此十分適合使用模塊化的知識(shí)分解方式。本課程的知識(shí)點(diǎn)模塊管理分為兩個(gè)層次,一是從宏觀角度設(shè)計(jì)課程的基礎(chǔ)內(nèi)容模塊和高級(jí)主題模塊;二是從微觀角度針對(duì)較為復(fù)雜的教學(xué)內(nèi)容進(jìn)行的知識(shí)點(diǎn)劃分。

1.課程主要內(nèi)容模塊化分析。目前該課程包括十章理論內(nèi)容,分別為數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的基本知識(shí)、數(shù)據(jù)倉(cāng)庫(kù)的OLAP技術(shù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)、概念描述:特征化與比較、挖掘大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則、分類與預(yù)測(cè)、聚類分析、復(fù)雜類型數(shù)據(jù)挖掘和序列模式挖掘。根據(jù)模塊化管理的宏觀角度分類,課程內(nèi)容的第一至五章屬于基礎(chǔ)理論部分和簡(jiǎn)單數(shù)據(jù)挖掘技術(shù)的介紹,可以作為基礎(chǔ)內(nèi)容模塊;第六至八章為數(shù)據(jù)挖掘的核心算法,其中既有基礎(chǔ)理論與技術(shù)方法,又可深入到較難的方法和復(fù)雜的應(yīng)用,因此介于基礎(chǔ)內(nèi)容與高級(jí)主題之間;第九、十章可以算做課程的高級(jí)主題模塊;另外,課程的實(shí)踐模塊既包含數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)又包含數(shù)據(jù)挖掘算法的應(yīng)用,難度也介于基礎(chǔ)內(nèi)容與高級(jí)主題之間。

2.復(fù)雜知識(shí)點(diǎn)的模塊化管理。從微觀角度對(duì)知識(shí)點(diǎn)進(jìn)行設(shè)計(jì)主要針對(duì)的是上述的高級(jí)主題、以及難度介于基礎(chǔ)內(nèi)容與高級(jí)主題之間的章節(jié),由于這些章節(jié)知識(shí)點(diǎn)在難度上有一定層次,講授內(nèi)容彈性比較大,因此需要在課程設(shè)計(jì)中明確一定課時(shí)量所要達(dá)到的難度。以商務(wù)智能技術(shù)中的分類算法為例:首先一般的入門課程都會(huì)介紹分類算法的概念和基本原理;接著開(kāi)始介紹分類算法的基礎(chǔ)算法――決策樹(shù),而決策樹(shù)算法中又包含ID3等多種算法,并且除了決策樹(shù)外,還有其他更高級(jí)的分類算法;在真正使用分類法進(jìn)行預(yù)測(cè)時(shí),還要分析預(yù)測(cè)準(zhǔn)確度;最終要將所學(xué)知識(shí)加以應(yīng)用。這樣就形成了一個(gè)結(jié)構(gòu)清晰、難度循序漸進(jìn)的知識(shí)點(diǎn)模塊的層次關(guān)系。在宏觀角度、微觀角度對(duì)教學(xué)內(nèi)容進(jìn)行分類的前提下進(jìn)行相應(yīng)的授課方法與考查方法的研究,才能真正有助于學(xué)生的學(xué)習(xí)。

四、授課與考核方法設(shè)計(jì)

對(duì)不同層次學(xué)生要求不同,這種不同既體現(xiàn)在知識(shí)點(diǎn)的要求上,又直接體現(xiàn)在任務(wù)的難易性程度上,這都需要教師在課程設(shè)計(jì)時(shí)充分考慮不同要求情況下的不同的授課方式,并使學(xué)生清楚自己需要掌握的程度。對(duì)于高級(jí)算法和實(shí)現(xiàn)部分,通??梢赃x擇一到兩章內(nèi)容采用專題探討式的教學(xué)方法。這種方法是指在教師啟發(fā)和引導(dǎo)下,以學(xué)生為主體,選擇某個(gè)基本教學(xué)單元為專題,學(xué)生自主研究作為知識(shí)傳遞的基本形式,將多種靈活的教學(xué)方式綜合運(yùn)用到教學(xué)環(huán)節(jié)的教學(xué)方法[3]。根據(jù)信管專業(yè)培養(yǎng)方案的培養(yǎng)目標(biāo)、以及對(duì)學(xué)生調(diào)研的情況,實(shí)踐環(huán)節(jié)比較適合選擇成熟的商務(wù)智能工具進(jìn)行數(shù)據(jù)的整合和多維數(shù)據(jù)建模,也就是直接使用現(xiàn)成的;或者使用數(shù)據(jù)挖掘軟件進(jìn)行數(shù)據(jù)建模,完善數(shù)據(jù)挖掘算法??梢葬槍?duì)學(xué)生管理基礎(chǔ)課與IT基礎(chǔ)課知識(shí)的掌握情況,選擇合適的工具為學(xué)生設(shè)計(jì)綜合性實(shí)驗(yàn)。實(shí)驗(yàn)中給出部分操作步驟,并在實(shí)驗(yàn)后期僅給出數(shù)據(jù)與工具,讓學(xué)生自己設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)、進(jìn)行數(shù)據(jù)挖掘、并對(duì)挖掘結(jié)果進(jìn)行多種形式的展示。

五、結(jié)論

本文通過(guò)國(guó)內(nèi)外數(shù)據(jù)挖掘課程內(nèi)容、分類、教學(xué)方法的分析,針對(duì)信管專業(yè)本科生的培養(yǎng)要求,研究了數(shù)據(jù)挖掘課程建設(shè)的主要內(nèi)容,并針對(duì)知識(shí)點(diǎn)的不同模塊,實(shí)行不同的授課方式,使學(xué)生更加明確重點(diǎn)、難點(diǎn)和擴(kuò)展內(nèi)容,提高了學(xué)生的聽(tīng)課效率,對(duì)教學(xué)內(nèi)容的模塊化分類、以及相應(yīng)的授課方式的研究成果仍可繼續(xù)發(fā)揮作用,并進(jìn)行更深入的研究和實(shí)踐。

參考文獻(xiàn):

[1]韋艷艷,張超群.模塊化教學(xué)與學(xué)習(xí)遷移[J].當(dāng)代教育論壇,2018,(5).

[2]鄭浩,陶虎,王曉輝.高校模塊化教學(xué)模式及其效果評(píng)價(jià)方法[J].科技信息,2012,(25).

篇7

關(guān)鍵詞:數(shù)據(jù)挖掘;理論創(chuàng)新;多元教學(xué);多梯度實(shí)驗(yàn)

0 引 言

在當(dāng)前大數(shù)據(jù)時(shí)代背景下,如何從海量數(shù)據(jù)中挖掘并提煉出對(duì)人們真正有用的知識(shí),是大數(shù)據(jù)研究的難點(diǎn)問(wèn)題,同時(shí)也是目前數(shù)據(jù)挖掘面臨的關(guān)鍵和核心問(wèn)題[1]。數(shù)據(jù)挖掘作為當(dāng)前計(jì)算機(jī)專業(yè)的一個(gè)前沿課程,是一個(gè)綜合性的交叉課程,也是重要的學(xué)術(shù)研究方向,其內(nèi)容涉及多方面基礎(chǔ)理論學(xué)科和應(yīng)用性強(qiáng)的技術(shù)領(lǐng)域,是提高計(jì)算機(jī)專業(yè)學(xué)生應(yīng)用實(shí)踐能力和理論創(chuàng)新能力的載體課程,在整個(gè)計(jì)算機(jī)專業(yè)的學(xué)習(xí)中具有極為重要的地位。

1 教學(xué)現(xiàn)狀

數(shù)據(jù)挖掘作為一門同時(shí)具備應(yīng)用性和學(xué)術(shù)性的課程,早期屬于計(jì)算機(jī)專業(yè)研究生培養(yǎng)的專業(yè)課程,但隨著數(shù)據(jù)挖掘在各個(gè)領(lǐng)域的廣泛應(yīng)用,現(xiàn)已成為計(jì)算機(jī)專業(yè)本科培養(yǎng)的專業(yè)選修課之一。目前,數(shù)據(jù)挖掘課程在教學(xué)內(nèi)容、教學(xué)方法和實(shí)驗(yàn)教學(xué)模式上存在諸多不足之處。

(1)教W內(nèi)容陳舊。目前的教學(xué)內(nèi)容一般根據(jù)某本數(shù)據(jù)挖掘教科書進(jìn)行講解,由于數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,一本教科書往往很難全面概括數(shù)據(jù)挖掘的內(nèi)容、方法和技術(shù)。

(2)基礎(chǔ)理論算法與實(shí)驗(yàn)教學(xué)脫節(jié)。當(dāng)前的教學(xué)路線往往是使本科學(xué)生從了解和掌握數(shù)據(jù)挖掘的基本任務(wù)開(kāi)始,然后講授數(shù)據(jù)挖掘的各種基本算法,最后上機(jī)實(shí)驗(yàn)。這一教學(xué)方式側(cè)重于以應(yīng)用為主,主要目標(biāo)在于培養(yǎng)計(jì)算機(jī)工程的應(yīng)用人才。然而,由于基礎(chǔ)理論算法與實(shí)驗(yàn)教學(xué)分開(kāi)講解,使得學(xué)生缺乏對(duì)使用數(shù)據(jù)挖掘解決實(shí)際問(wèn)題的能力。

(3)理論創(chuàng)新意識(shí)的缺乏。在當(dāng)前的本科教學(xué)中側(cè)重工程實(shí)踐能力的培養(yǎng),忽略理論創(chuàng)新的培養(yǎng)。在數(shù)據(jù)挖掘課程中,理論創(chuàng)新是指學(xué)生對(duì)所學(xué)的數(shù)據(jù)挖掘算法有自己的見(jiàn)解,能有意識(shí)地思考目前數(shù)據(jù)挖掘面臨的問(wèn)題并提出新的數(shù)據(jù)挖掘算法。

(4)實(shí)驗(yàn)教學(xué)僵化。當(dāng)前的實(shí)驗(yàn)教學(xué)往往是固定的幾個(gè)算法驗(yàn)證性實(shí)驗(yàn),對(duì)于不同學(xué)習(xí)能力的人而言,實(shí)驗(yàn)教學(xué)往往很難達(dá)到理想的效果。

目前,對(duì)日新月異的科技發(fā)展、以科技創(chuàng)新和技術(shù)升級(jí)為核心特征的激烈國(guó)際競(jìng)爭(zhēng),我國(guó)自主創(chuàng)新能力較為薄弱的問(wèn)題已經(jīng)越來(lái)越成為信息化發(fā)展的瓶頸[2],這也給數(shù)據(jù)挖掘教學(xué)帶來(lái)巨大挑戰(zhàn),即教師如何在教學(xué)過(guò)程中提高學(xué)生的理論創(chuàng)新能力?

2 教學(xué)方法的改革

2.1 教學(xué)內(nèi)容的前沿性與統(tǒng)一性

作為一門新興的前沿課程,該門課程內(nèi)容、方法和技術(shù)仍處于發(fā)展和探索階段。通過(guò)固定的教材去系統(tǒng)地傳授數(shù)據(jù)挖掘的內(nèi)容顯然是不太合理的。因此,與傳統(tǒng)學(xué)科不同,數(shù)據(jù)挖掘教學(xué)內(nèi)容需要進(jìn)行更新,并根據(jù)學(xué)生的接受能力進(jìn)行甄別篩選。同時(shí),要求任課教師在不斷發(fā)展的新技術(shù)與相對(duì)穩(wěn)定的教材中尋找一條貫穿整個(gè)教學(xué)內(nèi)容的主線,在講課的過(guò)程中,結(jié)合數(shù)據(jù)挖掘研究進(jìn)展,配合自己的研究成果,把最新的技術(shù)融入到課堂中。此外,由于數(shù)據(jù)挖掘是多學(xué)科的交叉課程,內(nèi)容涉及統(tǒng)計(jì)學(xué)、算法、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、模式識(shí)別、可視化等,而本科生的知識(shí)體系薄弱,在短時(shí)間難以透徹理解各部分內(nèi)容。因此,教學(xué)過(guò)程中教師應(yīng)合理設(shè)計(jì)教學(xué)大綱和方案,有機(jī)地學(xué)內(nèi)容,讓學(xué)生對(duì)數(shù)據(jù)挖掘有一個(gè)整體的了解。建立不同數(shù)據(jù)挖掘任務(wù)之間的相互關(guān)聯(lián),同時(shí)以項(xiàng)目講解的方式將數(shù)據(jù)挖掘涉及的數(shù)據(jù)預(yù)處理、聚類分析、分類預(yù)測(cè)、噪聲檢測(cè)、關(guān)聯(lián)規(guī)則挖掘等有機(jī)結(jié)合在一起。

2.2 理論創(chuàng)新的多元教學(xué)

針對(duì)現(xiàn)有本科生教學(xué)中理論創(chuàng)新意識(shí)的缺乏,嘗試進(jìn)行多元化教學(xué)模式,主要從以下4個(gè)方面展開(kāi)。

(1)區(qū)分教學(xué)內(nèi)容的難易度,將教學(xué)內(nèi)容分為基礎(chǔ)內(nèi)容與進(jìn)階內(nèi)容。在講授中注重基礎(chǔ)內(nèi)容的原理性,并有意識(shí)地讓學(xué)生接觸一些前沿性的理論拓展知識(shí)。比如在講解分類算法時(shí),首先專注幾個(gè)經(jīng)典的分類算法,如K―最鄰近、決策樹(shù)、樸素貝葉斯和支持向量機(jī)等。同時(shí),在此基礎(chǔ)上,給學(xué)生講述目前分類的一些前沿方法,如集成學(xué)習(xí)、深度學(xué)習(xí)和遷移學(xué)習(xí)等。

(2)以問(wèn)題為驅(qū)動(dòng)教學(xué)。在講解聚類算法時(shí),可以通過(guò)“物以類聚,人以群分”的思想展開(kāi),具體介紹K―MEANS和DBSCAN兩個(gè)具有代表性的聚類算法,讓學(xué)生思考數(shù)據(jù)挖掘不同算法提出的原因、基本思想和優(yōu)劣性,初步引導(dǎo)學(xué)生的自我思考、自我學(xué)習(xí)的創(chuàng)新思維能力。同時(shí),針對(duì)數(shù)據(jù)具有的高維性,讓學(xué)生進(jìn)一步思考“高維詛咒”問(wèn)題及在此問(wèn)題上展開(kāi)的子空間聚類的研究。

(3)建立“教研統(tǒng)一”研究式教學(xué)方法,利用教師現(xiàn)有科研促進(jìn)和服務(wù)于教學(xué),探索形成“科研嵌入”理論教學(xué)內(nèi)容。將教師在自己的研究與教學(xué)內(nèi)容進(jìn)行有機(jī)結(jié)合,豐富教學(xué)內(nèi)容,拓寬學(xué)生視野,提高學(xué)生實(shí)踐能力和創(chuàng)新能力,實(shí)現(xiàn)科研成果融入教學(xué)。這樣既提高了學(xué)生學(xué)習(xí)知識(shí)的興趣性,又培養(yǎng)了潛在的科學(xué)素養(yǎng)。此外,在整個(gè)教學(xué)環(huán)節(jié)中布置兩個(gè)任務(wù),一是讓學(xué)生進(jìn)行數(shù)據(jù)挖掘的文獻(xiàn)調(diào)研(主要涉及數(shù)據(jù)挖掘的歷史、現(xiàn)狀、面臨的挑戰(zhàn)及當(dāng)前的行業(yè)應(yīng)用),二是在課程結(jié)束后進(jìn)行主題研究報(bào)告,每個(gè)學(xué)生選擇自己感興趣的一個(gè)主題進(jìn)行,研究報(bào)告的目的是讓學(xué)生深入理解所學(xué)內(nèi)容,為后續(xù)的科研工作打下基礎(chǔ)。

(4)教學(xué)模式由傳統(tǒng)“填鴨式”向“互動(dòng)式”教學(xué)轉(zhuǎn)變。通過(guò)研討方式引導(dǎo)學(xué)生去思考,激發(fā)學(xué)生的求知欲,充分調(diào)動(dòng)其學(xué)習(xí)的積極性和主觀能動(dòng)性。通過(guò)具體實(shí)例,讓學(xué)生知道算法的應(yīng)用場(chǎng)合,提高學(xué)習(xí)興趣和效率。

2.3 多梯度實(shí)驗(yàn)教學(xué)

實(shí)驗(yàn)教學(xué)是使學(xué)生在實(shí)踐環(huán)節(jié)將數(shù)據(jù)挖掘課程中學(xué)習(xí)的理論算法應(yīng)用于實(shí)踐,幫助學(xué)生理解和掌握知識(shí),提高動(dòng)手能力。傳統(tǒng)的上機(jī)實(shí)驗(yàn)往往是側(cè)重幾個(gè)經(jīng)典算法的實(shí)現(xiàn),如KMEANS、KNN、ID3決策樹(shù)和LOF算法等。然而,數(shù)據(jù)挖掘是一門工程應(yīng)用性較強(qiáng)的學(xué)科,這種算法驗(yàn)證實(shí)驗(yàn)很難讓學(xué)生體會(huì)到數(shù)據(jù)挖掘的實(shí)際應(yīng)用,因此,從基礎(chǔ)能力培養(yǎng)、工程應(yīng)用及創(chuàng)新研究3個(gè)方面設(shè)計(jì)多梯度實(shí)驗(yàn)。

首先,按照由淺入深的原則設(shè)計(jì)2個(gè)經(jīng)典算法實(shí)現(xiàn),如KMEANS和 ID3決策樹(shù)。這個(gè)實(shí)驗(yàn)為算法型實(shí)驗(yàn),主要是幫助學(xué)生通過(guò)實(shí)驗(yàn)更好地了解所學(xué)算法,學(xué)生也可以自己選擇聚類分析和分類預(yù)測(cè)的任意兩個(gè)算法進(jìn)行實(shí)現(xiàn)。

其次,設(shè)計(jì)一個(gè)簡(jiǎn)單綜合型實(shí)驗(yàn),比如垃圾郵件的分類系統(tǒng),要求學(xué)生完成從數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理到整個(gè)系統(tǒng)的實(shí)現(xiàn)。主要考查學(xué)生綜合運(yùn)用數(shù)據(jù)挖掘知識(shí),解決實(shí)際問(wèn)題的能力,注重工程能力的培養(yǎng)。

最后是創(chuàng)新算法的實(shí)驗(yàn)設(shè)計(jì),比如子空間聚類算法的實(shí)現(xiàn)。這個(gè)實(shí)驗(yàn)注重部分學(xué)生創(chuàng)新能力的培養(yǎng),尤其是致力于以后從事科學(xué)研究的學(xué)生。學(xué)生可以根據(jù)自己的愛(ài)好,選擇算法型實(shí)驗(yàn)和綜合型實(shí)驗(yàn),也可以選擇算法型實(shí)驗(yàn)和創(chuàng)新算法設(shè)計(jì)實(shí)驗(yàn)。多梯度實(shí)驗(yàn)的目的主要是希望針對(duì)不同學(xué)生的學(xué)習(xí)興趣及將來(lái)的發(fā)展方向,給出合適的實(shí)驗(yàn)教學(xué)。實(shí)驗(yàn)的整體難度由易到難,層層深入,有利于學(xué)生實(shí)踐能力和創(chuàng)新能力的培養(yǎng)。

3 結(jié) 語(yǔ)

當(dāng)前,數(shù)據(jù)挖掘正處在快速發(fā)展的過(guò)程中,各個(gè)領(lǐng)域的大量應(yīng)用使得對(duì)數(shù)據(jù)挖掘這門課程的工程應(yīng)用能力要求越來(lái)越高,需要學(xué)生具有更好的創(chuàng)新能力,因此,數(shù)據(jù)挖掘課程的教學(xué)也同樣需要調(diào)整教學(xué)內(nèi)容和教學(xué)手段來(lái)緊跟其發(fā)展的步伐?;诖?,我們提出在課程內(nèi)容的前沿性、教學(xué)模式的多元性及實(shí)驗(yàn)教學(xué)的多梯度性上進(jìn)行改革,從而達(dá)到在培養(yǎng)學(xué)生工程實(shí)踐能力的同時(shí),提高其創(chuàng)新思維能力。

基金項(xiàng)目:電子科技大學(xué)“互聯(lián)網(wǎng)+”課程建設(shè)教改專項(xiàng)。

第一作者簡(jiǎn)介:邵俊明,男,教授,研究方向?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)及在交叉學(xué)科的應(yīng)用研究, 。

篇8

1程序設(shè)計(jì)課程與數(shù)據(jù)挖掘技術(shù)概述

程序設(shè)計(jì)課程是培養(yǎng)學(xué)生軟件開(kāi)發(fā)能力的一門課程。目前國(guó)內(nèi)的理工類學(xué)校或相關(guān)專業(yè)普遍都為學(xué)生開(kāi)設(shè)了程序設(shè)計(jì)課程。一直以來(lái),如何了解多數(shù)學(xué)生在學(xué)習(xí)程序設(shè)計(jì)中所遇到的困難,如何幫助學(xué)生克服學(xué)習(xí)中的障礙,都要靠教師多年的教學(xué)經(jīng)驗(yàn)來(lái)解決。這種傳統(tǒng)的教學(xué)方法顯然不能滿足知識(shí)更新迅速的計(jì)算機(jī)教學(xué)過(guò)程。因此需要研究如何從學(xué)生提交的程序作業(yè)中利用數(shù)據(jù)庫(kù)技術(shù)及時(shí)發(fā)現(xiàn)問(wèn)題和解決問(wèn)題。數(shù)據(jù)挖掘(Data Mining)技術(shù)是近年來(lái)新興的數(shù)據(jù)管理與分析技術(shù),主要用于發(fā)現(xiàn)數(shù)據(jù)中隱藏的線索,輔助人們進(jìn)行科學(xué)分析和決策。數(shù)據(jù)挖掘普遍需要三個(gè)階段:數(shù)據(jù)準(zhǔn)備、挖掘操作和結(jié)果表達(dá)。下面以C語(yǔ)言為例介紹在程序設(shè)計(jì)課程教學(xué)中,對(duì)學(xué)生程序作業(yè)進(jìn)行數(shù)據(jù)挖掘的一種應(yīng)用方案。

2程序設(shè)計(jì)課程的數(shù)據(jù)挖掘過(guò)程

2.1 數(shù)據(jù)準(zhǔn)備

根據(jù)程序設(shè)計(jì)課程的教學(xué)特點(diǎn),我們按錯(cuò)誤的嚴(yán)重程度將所有學(xué)生提交的程序作業(yè)的評(píng)閱結(jié)果歸納為以下5類,即題目錯(cuò)誤、編譯時(shí)語(yǔ)法錯(cuò)誤、編譯時(shí)語(yǔ)法警告、編譯后運(yùn)行結(jié)果不完全正確、編譯后運(yùn)行結(jié)果完全正確。為了對(duì)學(xué)生程序作業(yè)中的問(wèn)題進(jìn)一步分析原因,我們對(duì)以下8類數(shù)據(jù)進(jìn)行分析,即功能模塊函數(shù)序列、邏輯結(jié)構(gòu)序列、語(yǔ)句類型序列、表達(dá)式序列、運(yùn)算符序列、標(biāo)識(shí)符序列、數(shù)值常量序列以及簡(jiǎn)化的字符常量序列。

要將文件形式的源程序分解為以上8項(xiàng)數(shù)據(jù),就需要按語(yǔ)法規(guī)則完成以下步驟:

(1) 過(guò)濾程序中的注釋信息和空白字符,產(chǎn)生預(yù)處理元素序列;

(2) 根據(jù)#include和#define等標(biāo)記替換用戶指定的包含文件和宏定義等預(yù)處理元素;

(3) 對(duì)照語(yǔ)法元素表,進(jìn)一步將程序分解為關(guān)鍵字、標(biāo)識(shí)符、常量、運(yùn)算符、定界符等語(yǔ)法元素序列;

(4) 將數(shù)值常量以空格為連接符連接為一個(gè)數(shù)值常量序列;

(5) 將字符及字符串常量保留%d等格式字符和\n等轉(zhuǎn)義字符后刪去多余字符,以空格為連接符連接為一個(gè)簡(jiǎn)化的字符常量序列;

(6) 將所有運(yùn)算符以空格為連接符連接為一個(gè)運(yùn)算符序列;

(7) 將用戶變量名和函數(shù)名統(tǒng)一編碼后與程序中的關(guān)鍵字構(gòu)成標(biāo)識(shí)符序列;

(8) 將運(yùn)算符與標(biāo)識(shí)符及常量以空格為連接符連接為一個(gè)表達(dá)式序列;

(9) 將程序中的語(yǔ)句分類為表達(dá)式語(yǔ)句、函數(shù)調(diào)用語(yǔ)句、空語(yǔ)句、復(fù)合語(yǔ)句、if語(yǔ)句、else語(yǔ)句、switch語(yǔ)句、case語(yǔ)句、while語(yǔ)句、do語(yǔ)句、for語(yǔ)句、break語(yǔ)句、continue語(yǔ)句、return語(yǔ)句和goto語(yǔ)句,并組織成語(yǔ)句類型序列;

(10) 對(duì)語(yǔ)句按分號(hào)和大括號(hào)等定界符劃分為模塊函數(shù)序列;

(11) 將模塊內(nèi)語(yǔ)句按順序、選擇、循環(huán)的分類構(gòu)成邏輯結(jié)構(gòu)序列。

2.2 挖掘操作的過(guò)程

由于篇幅所限,下面僅以程序設(shè)計(jì)教學(xué)中的典型題目“溫度轉(zhuǎn)換”的數(shù)值常量序列和運(yùn)算符序列為考察數(shù)據(jù)具體描述挖掘過(guò)程。

(1)數(shù)據(jù)清理

首先將數(shù)據(jù)準(zhǔn)備階段的各類數(shù)據(jù)與評(píng)閱結(jié)果組成一個(gè)數(shù)據(jù)記錄集(如表1所示)。由于分析的目的是找出教學(xué)中造成學(xué)生程序錯(cuò)誤的主要因素,而題目錯(cuò)誤僅僅是因?yàn)閷W(xué)生操作馬虎,與掌握程序設(shè)計(jì)的能力并不相關(guān),因此把評(píng)閱結(jié)果全部正確的和題目錯(cuò)誤的記錄過(guò)濾掉,只保留評(píng)閱結(jié)果為語(yǔ)法錯(cuò)誤、語(yǔ)法警告和運(yùn)行錯(cuò)誤的記錄(如表2所示)。

(2)構(gòu)造1項(xiàng)侯選集,發(fā)現(xiàn)頻繁1項(xiàng)集

將所有數(shù)據(jù)作為1項(xiàng)集中的元素,構(gòu)造1項(xiàng)侯選集,并計(jì)算不同元素的數(shù)量,如表3所示。保留其中數(shù)量較多的元素,濾掉其它元素,得到頻繁1項(xiàng)集,如表4所示。

(3)構(gòu)造2項(xiàng)侯選集,發(fā)現(xiàn)頻繁2項(xiàng)集

將所有頻繁1項(xiàng)集元素兩兩組合,構(gòu)成侯選2項(xiàng)集,并計(jì)算組合后的數(shù)量,如表5所示。保留其中數(shù)量比較多的元素,濾掉其它元素,得到頻繁2項(xiàng)集{=/*(-),編譯警告}。

2.3 結(jié)果表達(dá)和解釋

保留下來(lái)的2項(xiàng)集的兩個(gè)元素分別代表了錯(cuò)誤類型和造成該類型錯(cuò)誤的主要語(yǔ)法元素序列,即現(xiàn)有數(shù)據(jù)表明(輸入函數(shù)中)未使用取地址運(yùn)算符是造成編譯警告的主要原因。

3數(shù)據(jù)挖掘應(yīng)用效果

在現(xiàn)實(shí)的教學(xué)過(guò)程中,我們對(duì)2005級(jí)8個(gè)班275名學(xué)生的5385個(gè)程序進(jìn)行了統(tǒng)計(jì)和分析,發(fā)現(xiàn)題目錯(cuò)誤的比例約占1.49%,編譯錯(cuò)誤的比例約占3.38%,編譯時(shí)警告的比例約占1.21%,運(yùn)行錯(cuò)誤的比例約占8.10%,運(yùn)行正確的比例約占85.82%。其中造成編譯錯(cuò)誤的主要原因是注釋信息或各級(jí)括號(hào)定界符未配對(duì);造成編譯警告的主要原因是格式輸入函數(shù)調(diào)用時(shí)缺少地址運(yùn)算符或用戶變量定義后未使用;造成運(yùn)行錯(cuò)誤的主要原因是除法運(yùn)算符兩側(cè)運(yùn)算量為整型常量。下面的圖表反映了在程序設(shè)計(jì)課程的教學(xué)中沒(méi)有使用數(shù)據(jù)挖掘技術(shù)和使用了數(shù)據(jù)挖掘技術(shù)的教學(xué)效果對(duì)比。

圖1為未采用本方法指導(dǎo)教學(xué)的10次學(xué)生程序作業(yè)評(píng)閱結(jié)果統(tǒng)計(jì)圖,其中靠上的折線表示每次學(xué)生作業(yè)的平均分?jǐn)?shù),靠下的折線表示每次學(xué)生作業(yè)的嚴(yán)重語(yǔ)法錯(cuò)誤發(fā)生率??梢园l(fā)現(xiàn),學(xué)生每次作業(yè)的平均成績(jī)基本呈水平小波動(dòng)隨機(jī)形狀,表明學(xué)生成績(jī)?cè)趯W(xué)習(xí)過(guò)程中沒(méi)有明顯變化,同樣嚴(yán)重語(yǔ)法錯(cuò)誤發(fā)生率也沒(méi)有明顯變化。圖2為一直采用本方法指導(dǎo)教學(xué)的10次學(xué)生程序作業(yè)評(píng)閱結(jié)果統(tǒng)計(jì)圖,可以發(fā)現(xiàn)學(xué)生的成績(jī)隨著系統(tǒng)的使用時(shí)間增加而穩(wěn)定的上升。在第三次作業(yè)以后基本保持在90分以上的水平,同時(shí)嚴(yán)重語(yǔ)法錯(cuò)誤的比例也快速的下降,在第二次作業(yè)以后就控制在5%以下。以上對(duì)比說(shuō)明本方法比較準(zhǔn)確地發(fā)現(xiàn)了學(xué)生程序中的語(yǔ)法錯(cuò)誤和算法錯(cuò)誤的主要因素,使學(xué)生得到及時(shí)地反饋并在以后的程序設(shè)計(jì)中避免相似的錯(cuò)誤,從而明顯的改善了教學(xué)效果。

參考文獻(xiàn):

[1] 李建中,王珊 . 數(shù)據(jù)庫(kù)系統(tǒng)原理[M] . 北京:電子工業(yè)出版社,2004.

[2] Richard J. Roiger,Michael W.Geatz . 數(shù)據(jù)挖掘教程[M] .北京:清華大學(xué)出版社,2003.

篇9

Data Mining Based Course Competence Development of C Programming Language for Vocational College

GUO Xiao-chen1,2

(Chenzhou Vocational Technical College,Chenzhou 423000,China)

Abstract:In this paper we utilize the data mining technology into the course of C programming language in vocational colleges in order to classify and predict the examination result, and eventually find out the implied information. This is helpful to make guidance for improving the quality of teaching and deepen the teaching reform.

Key words: data mining; concept description;class comparision; C Programming Language

1 引言

C語(yǔ)言程序設(shè)計(jì)課程是計(jì)算機(jī)應(yīng)用和電子信息工程專業(yè)的必修程序設(shè)計(jì)課,是知識(shí)性、技能性和實(shí)踐性很強(qiáng)的課程。主要培養(yǎng)學(xué)生利用計(jì)算機(jī)來(lái)處理實(shí)際問(wèn)題的能力和培養(yǎng)學(xué)生程序設(shè)計(jì)的思維能力,使學(xué)生能夠掌握C語(yǔ)言的基本語(yǔ)法和算法,能利用C語(yǔ)言進(jìn)行基本的程序設(shè)計(jì)。

C語(yǔ)言程序設(shè)計(jì)主要由數(shù)據(jù)描述、程序控制兩大模塊組成,包括基礎(chǔ)數(shù)據(jù)類型、流程控制、函數(shù)和復(fù)雜數(shù)據(jù)類型等四個(gè)單元的內(nèi)容。筆者從事多年的C語(yǔ)言程序設(shè)計(jì)教學(xué)工作,如何利用有效數(shù)據(jù)分析工具,將所積累的豐富的數(shù)據(jù)轉(zhuǎn)換為有價(jià)值的知識(shí),了解和分析學(xué)生的知識(shí)掌握及能力培養(yǎng)情況,并采用相應(yīng)的教學(xué)改革。

2 數(shù)據(jù)挖掘技術(shù)的概念和內(nèi)涵

數(shù)據(jù)挖掘(DataMining)是對(duì)大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際數(shù)據(jù),進(jìn)行抽取、轉(zhuǎn)換、分析和模型化處理,從而提取能輔助決策的關(guān)鍵性數(shù)據(jù),并能結(jié)合應(yīng)用領(lǐng)域的特點(diǎn),推導(dǎo)出有用的知識(shí)的過(guò)程;簡(jiǎn)而言之,數(shù)據(jù)挖掘就是深層次的數(shù)據(jù)信息分析方法。通常采用概念/類描述、關(guān)聯(lián)分析、分類和預(yù)測(cè)、聚類分析及演變分析等方法來(lái)完成數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的過(guò)程是一個(gè)線性的過(guò)程,依據(jù)不同信息平臺(tái)的數(shù)據(jù)類型,采用面向環(huán)境的管理方式,實(shí)現(xiàn)面向環(huán)境要求的數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的過(guò)程一般由數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的解釋與評(píng)估四個(gè)階段組成。

3 數(shù)據(jù)挖掘技術(shù)在《C語(yǔ)言程序設(shè)計(jì)》課程能力培養(yǎng)分析中的應(yīng)用

3.1 數(shù)據(jù)倉(cāng)庫(kù)的建立

挖掘所需要的數(shù)據(jù)來(lái)源于某高職院校近3年來(lái)計(jì)算機(jī)應(yīng)用和電子信息工程兩專業(yè)近860名學(xué)生的C語(yǔ)言程序設(shè)計(jì)這門課程的期末考試成績(jī)、實(shí)驗(yàn)成績(jī)及實(shí)習(xí)成績(jī),給定屬性學(xué)號(hào)(ID)、姓名(name)、性別(gender)、專業(yè)(major)、科類(section)、成績(jī)(result)。成績(jī)部分包括考試成績(jī)(test_result簡(jiǎn)稱為t_r)、實(shí)驗(yàn)成績(jī)(experimental_result簡(jiǎn)稱為e_r) 、實(shí)習(xí)成績(jī)(practice_result簡(jiǎn)稱為p_r)及總分?jǐn)?shù)(total_score簡(jiǎn)稱為t_s),其中總分?jǐn)?shù)=考試成績(jī)×70%+實(shí)習(xí)成績(jī)×20%+實(shí)驗(yàn)成績(jī)×10%。通過(guò)對(duì)考試試卷的分析統(tǒng)計(jì),基礎(chǔ)數(shù)據(jù)類型(Foundation Data Type簡(jiǎn)稱為FDT)、流程控制(Process Control簡(jiǎn)稱為PC)、函數(shù)(Function簡(jiǎn)稱為F)和復(fù)雜數(shù)據(jù)類型(Complicated Data Type簡(jiǎn)稱為CDT)四個(gè)單元的分?jǐn)?shù)比重分別為20%,30%,20%,30%,綜合考慮各單元的內(nèi)容,匯總統(tǒng)計(jì)出各單元的滿分分值為14,21,14,21。

該數(shù)據(jù)挖掘任務(wù)可以用DMQL表示如下:

Define cub discretmath〔ID,name,gender,section,major,result〕。

total_score=sum (result);

define dimension result(test_result,Programes_result,practice_ result);

define dimension test_result(FDT,PC,F, CDT)。

數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)如表1:

3.2 數(shù)據(jù)的預(yù)處理

由于現(xiàn)實(shí)中的數(shù)據(jù)多半是不完整的、有噪聲的、不一致的,某些學(xué)生的成績(jī)會(huì)因教師個(gè)人感情或其它因素而分?jǐn)?shù)偏高或偏低,從而導(dǎo)致現(xiàn)有分?jǐn)?shù)含有一定偏差的噪聲數(shù)據(jù),對(duì)此可以通過(guò)數(shù)據(jù)的預(yù)處理技術(shù)改進(jìn)數(shù)據(jù)的質(zhì)量,提高其后的挖掘過(guò)程的精度和性能。本文利用數(shù)據(jù)清理中的聚類中K_平均算法找出孤立點(diǎn),并利用分箱技術(shù)將噪聲去掉。表2為經(jīng)過(guò)數(shù)據(jù)預(yù)處理的二維視圖。

以上數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),就是經(jīng)過(guò)預(yù)處理后,得到的是集成的、概念分層的、不含有噪聲的數(shù)據(jù),該數(shù)據(jù)可以用來(lái)進(jìn)行準(zhǔn)確的數(shù)據(jù)挖掘工作。

3.3概念/類描述

3.3.1數(shù)據(jù)概化

數(shù)據(jù)庫(kù)中的數(shù)據(jù)和對(duì)象通常包含原始概念層的細(xì)節(jié)信息,在多數(shù)情況下,感興趣的一般是在不同抽象層上得到的數(shù)據(jù)的量化信息或統(tǒng)計(jì)信息。因此,首先采用解析特征化進(jìn)行屬性相關(guān)分析,來(lái)幫助識(shí)別不相關(guān)或弱相關(guān)屬性,將它們排除在概念描述過(guò)程之外。概化過(guò)程如下:

1)收集目標(biāo)類數(shù)據(jù),它由計(jì)算機(jī)專業(yè)的集合組成,對(duì)比類數(shù)據(jù)取電子信息工程專業(yè)的集合;

2)用保守的屬性概化閾值進(jìn)行面向?qū)傩缘臍w納,通過(guò)屬性刪除和屬性概化進(jìn)行預(yù)相關(guān)分析。

ID:由于ID存在大量不同值,并且其上沒(méi)有概化操作符,該屬性被刪除;name:由于name存在大量不同值,并且其上沒(méi)有概化操作符,該屬性被刪除;gender:由于gender只有兩個(gè)不同值,該屬性保留,并且不對(duì)其進(jìn)行概化;major:假定已定義了一個(gè)概念分層,允許將屬性major概化到值{計(jì)算機(jī)應(yīng)用,電子信息工程};section:假定已定義了一個(gè)概念分層,允許將屬性科類概化到值{理科,文科,對(duì)口};total_score:該屬性存在大量不同值,因此應(yīng)當(dāng)概化它。假定存在total的概念分層,將分?jǐn)?shù)數(shù)值區(qū)間{100_85,84一70,69_60,59_0}按等級(jí)(grade){A,B,C,D}分組,這樣該屬性可以被概化。

表3通過(guò)對(duì)表2的數(shù)據(jù)進(jìn)行概化得到的關(guān)系

3.3.2類比較的實(shí)現(xiàn)

通過(guò)概化處理,數(shù)據(jù)倉(cāng)庫(kù)中的屬性基本已經(jīng)得到了單個(gè)類的描述。但我們希望挖掘一個(gè)描述是它能將一個(gè)類與其它可比較的類相區(qū)分,因此采用挖掘類比較來(lái)實(shí)現(xiàn)?,F(xiàn)給定了屬性gender, section,major, test_result,program_result,practice_ result和grade。

1)專業(yè)類別分析

首先確定目標(biāo)類與對(duì)比類為屬性major中計(jì)算機(jī)應(yīng)用和電子信息工程兩個(gè)不同專業(yè)的學(xué)生;其次,對(duì)兩個(gè)數(shù)據(jù)上進(jìn)行維相關(guān)分析,不相關(guān)或弱相關(guān)的維從結(jié)果類刪除;再次,在目標(biāo)類上進(jìn)行同步概化,產(chǎn)生主目標(biāo)類關(guān)系,如表4所示。

從表4可以看出,與電子信息工程專業(yè)相比,計(jì)算機(jī)應(yīng)用專業(yè)的學(xué)生趨向平均分、實(shí)習(xí)成績(jī)及實(shí)驗(yàn)成績(jī)這三部分分?jǐn)?shù)較高,體現(xiàn)出學(xué)生在知識(shí)應(yīng)用能力和計(jì)算機(jī)編程能力上較強(qiáng),但對(duì)知識(shí)掌握出現(xiàn)兩極分化嚴(yán)重,針對(duì)這部分基礎(chǔ)知識(shí)掌握不牢固的學(xué)生,教師在執(zhí)教時(shí)就應(yīng)考慮加強(qiáng)基礎(chǔ)知識(shí)的鞏固。相對(duì)而言電子信息工程專業(yè)的學(xué)生對(duì)基礎(chǔ)知識(shí)的掌握基本較好,但對(duì)該課程的靈活應(yīng)用有所欠缺,這就使得在教學(xué)過(guò)程中應(yīng)適當(dāng)注重培養(yǎng)學(xué)生的應(yīng)用能力,加強(qiáng)對(duì)他們編程、實(shí)驗(yàn)及實(shí)習(xí)的輔導(dǎo)。

2)性別類別分析

首先確定目標(biāo)類與對(duì)比類為屬性gender中的男和女;其次,對(duì)兩個(gè)數(shù)據(jù)上進(jìn)行維相關(guān)分析,不相關(guān)或弱相關(guān)的維從結(jié)果類刪除;再次,在目標(biāo)類上進(jìn)行同步概化,產(chǎn)生主目標(biāo)類關(guān)系,如表5所示。

表4 主類(計(jì)算機(jī)應(yīng)用)與目標(biāo)類(電子信息工程)關(guān)系 表5 主類(男)與目標(biāo)類(女)關(guān)系

從表5可以看出,與女生相比,男生從總體上對(duì)該門課程的學(xué)習(xí)效果較差,不及格率較高,且優(yōu)秀率低,基礎(chǔ)知識(shí)掌握不牢固,體現(xiàn)出不少男生學(xué)習(xí)態(tài)度不端正,目的不明確,缺乏學(xué)習(xí)的積極性。而女生這門課的成績(jī)比男生好,優(yōu)秀率高,及格率高,對(duì)基礎(chǔ)知識(shí)掌握牢固,但在知識(shí)的應(yīng)用能力方面欠佳不能很好地靈活運(yùn)用;由此可見(jiàn),教師在教學(xué)過(guò)程中須考慮學(xué)生的性別差異,因材施教。

3)科類類別分析

首先確定目標(biāo)類與對(duì)比類為屬性section中文科類、理科類和對(duì)口類;其次,對(duì)兩個(gè)數(shù)據(jù)上進(jìn)行維相關(guān)分析,不相關(guān)或弱相關(guān)的維從結(jié)果類刪除;再次,在目標(biāo)類上進(jìn)行同步概化,產(chǎn)生主目標(biāo)類關(guān)系,如表6所示:

從表6可以看出,與理科類、文科類相比,通過(guò)對(duì)口高招進(jìn)來(lái)的學(xué)生不管對(duì)理論知識(shí)的掌握還是在實(shí)踐技能上都比較突出,且目的性非常強(qiáng)。而文科類與理科類相比, 文科類對(duì)基礎(chǔ)知識(shí)的學(xué)習(xí)優(yōu)于理科類,但在知識(shí)的應(yīng)用能力上較差,理科類則恰恰相反??梢?jiàn),教師在教學(xué)過(guò)程中除了考慮普遍學(xué)生存在的問(wèn)題外,還需要注意學(xué)生的差異,對(duì)于對(duì)口類學(xué)生而言應(yīng)多準(zhǔn)備一些相對(duì)大的項(xiàng)目,讓其能“吃飽”,而對(duì)于理科類和文科類學(xué)生一方面要加強(qiáng)理論基礎(chǔ)知識(shí)的學(xué)習(xí)指導(dǎo),另一方面要適當(dāng)注意培養(yǎng)其應(yīng)用能力,加強(qiáng)對(duì)編程及實(shí)踐方面的輔導(dǎo)。

4 結(jié)論

利用多年的C語(yǔ)言程序設(shè)計(jì)課程的成績(jī)的數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘技術(shù)探索和發(fā)現(xiàn)兩個(gè)專業(yè)學(xué)生對(duì)這門課程的知識(shí)掌握及能力培養(yǎng)的情況,可以有針對(duì)性地進(jìn)行教學(xué)內(nèi)容和教學(xué)方式的改革,使得學(xué)生更好地掌握C語(yǔ)言程序設(shè)計(jì)這門課的知識(shí),培養(yǎng)各方面的能力,為以后的課程學(xué)習(xí)、專業(yè)發(fā)展打下堅(jiān)實(shí)的基礎(chǔ)。

參考文獻(xiàn):

[1] JiaweiH,MichelineK.DataMiningConceptsandTechniquo5[M].Beijing:China Machine Press,2006.

[2] 朱明.數(shù)據(jù)挖掘[M].合肥:中國(guó)科技大學(xué)出版社,2O02.

[3] 張錦祥.高級(jí)程序設(shè)計(jì)語(yǔ)言課程教學(xué)改革與實(shí)踐[J].浙江教育學(xué)院學(xué)報(bào),2007(4)71-76.

篇10

Applied Research of Task-driven Inquiry Teaching Model in Data Mining Course

HUANG Jian

(Zhejiang Wanli University, Department of Computer Science and Information Technology, Ningbo 315100, China)

Abstract: The task-driven inquiry teaching model is a teaching activities which students as the main body, teachers as the leading. It fits the data-mining course. Not only using task lead the student to inquiry learning, but also improve teachers during the teaching process. Based on the data mining course teaching reform practice, summarizes the task-driven inquiry teaching mode in general process and the specific content of the reform. Practice has proved, this teaching mode is good for improving undergraduate courses teaching quality.

Key words: Task-driven; Inquiry; Curriculum reform

數(shù)據(jù)挖掘是一門包括了數(shù)據(jù)庫(kù)系統(tǒng)、專家系統(tǒng)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、模式識(shí)別、信息檢索、人工智能等學(xué)科的綜合性的學(xué)科,其目標(biāo)是發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的知識(shí)模式。此課程一般是在研究生教育階段開(kāi)設(shè)[1],但隨著社會(huì)對(duì)應(yīng)用型人才的需求越來(lái)越大,這就要求我們的學(xué)生畢業(yè)后不僅要有扎實(shí)的理論基礎(chǔ),更要有較強(qiáng)的創(chuàng)新能力和實(shí)踐能力。

我校針對(duì)信息與計(jì)算科學(xué)及統(tǒng)計(jì)學(xué)兩個(gè)專業(yè)開(kāi)設(shè)了數(shù)據(jù)挖掘課程。該專業(yè)學(xué)生擁有較強(qiáng)的數(shù)學(xué)理論基礎(chǔ),并掌握了數(shù)學(xué)建模、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)等相關(guān)學(xué)科。數(shù)據(jù)挖掘作為一門綜合性課程,是融合學(xué)生各科知識(shí),提高該專業(yè)學(xué)生應(yīng)用實(shí)踐能力,培養(yǎng)學(xué)生團(tuán)隊(duì)協(xié)作能力的很好的載體課程。

1 數(shù)據(jù)挖掘課程教學(xué)特點(diǎn)

數(shù)據(jù)挖掘技術(shù)是一個(gè)多學(xué)科交叉的綜合研究領(lǐng)域。不過(guò)也正因?yàn)樗婕暗姆秶軓V泛,發(fā)展的時(shí)間也不是很長(zhǎng),因此要真正理解數(shù)據(jù)挖掘的本質(zhì)并不是一件容易的事情。我校針對(duì)信息與計(jì)算科學(xué)和統(tǒng)計(jì)學(xué)兩個(gè)理學(xué)專業(yè)開(kāi)設(shè)此課程,并將此課程歸類為實(shí)踐類課程。經(jīng)過(guò)筆者多年對(duì)傳統(tǒng)教學(xué)方法的研究和改革,發(fā)現(xiàn)了在數(shù)據(jù)挖掘教學(xué)中存在的問(wèn)題:

1) 理論教學(xué)困難:數(shù)據(jù)挖掘課程內(nèi)容涉及領(lǐng)域廣泛,如統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、模式識(shí)別等內(nèi)容,并且所涉及的算法繁多。由于本科生的知識(shí)體系不健全,理論基礎(chǔ)相對(duì)薄弱,造成了學(xué)習(xí)難度過(guò)大。此外,由于學(xué)時(shí)限制,無(wú)法在課堂中詳細(xì)地講述算法理論,導(dǎo)致了學(xué)生積極性不高,很難達(dá)到教學(xué)目標(biāo)。

2) 實(shí)踐環(huán)節(jié)無(wú)法讓學(xué)生體會(huì)數(shù)據(jù)挖掘本質(zhì):數(shù)據(jù)挖掘是從數(shù)據(jù)獲取、數(shù)據(jù)整理、預(yù)處理、數(shù)據(jù)挖掘分析、結(jié)果分析等一系列流程的綜合。但由于課時(shí)關(guān)系,我們課程中的實(shí)踐環(huán)節(jié)往往是針對(duì)某個(gè)特定的算法,讓學(xué)生利用已經(jīng)預(yù)處理好的數(shù)據(jù)進(jìn)行算法的應(yīng)用。數(shù)據(jù)挖掘成本很高,但是這個(gè)成本往往并不是金錢,而是時(shí)間,而數(shù)據(jù)整理和預(yù)處理的時(shí)間往往占到全部工作量的80%。不經(jīng)過(guò)完整的數(shù)據(jù)挖掘流程訓(xùn)練,學(xué)生就無(wú)法體會(huì)數(shù)據(jù)挖掘的本質(zhì)。

3) 軟件應(yīng)用缺乏:針對(duì)海量數(shù)據(jù)分析是必須要應(yīng)用到計(jì)算機(jī)技術(shù)處理。當(dāng)今針對(duì)數(shù)據(jù)挖掘應(yīng)用的軟件很多,如SAS公司的EM模塊、SPSS的Modeler、WEKA、Matlab以及各數(shù)據(jù)庫(kù)系統(tǒng)配套的OLAP功能等。在課堂中,不可能對(duì)任何一款軟件都詳細(xì)的進(jìn)行講解。這就使得學(xué)生很難進(jìn)行算法的應(yīng)用實(shí)踐。

2 任務(wù)驅(qū)動(dòng)探究式教學(xué)模式

針對(duì)目前教學(xué)存在的這些問(wèn)題,廣西大學(xué)梁斌梅提出了目標(biāo)驅(qū)動(dòng)的專業(yè)課教學(xué)法,利用導(dǎo)入課吸引學(xué)生、利用教學(xué)目標(biāo)引導(dǎo)學(xué)生[2]。韓秋明等人編著的《數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例》中采用了大量的行業(yè)數(shù)據(jù),為數(shù)據(jù)挖掘教學(xué)模式的改革提供大量的應(yīng)用實(shí)例[3]。結(jié)合本校的學(xué)生特點(diǎn),參考國(guó)內(nèi)的一些研究成果,該文提出了基于任務(wù)驅(qū)動(dòng)探究式教學(xué)模式。課程整體主線由任務(wù)驅(qū)動(dòng),學(xué)生進(jìn)行探究式自主學(xué)習(xí)。

任務(wù)驅(qū)動(dòng)是基于構(gòu)建主義教學(xué)理論基礎(chǔ)上的教學(xué)方法,以學(xué)生為主體,以老師為主導(dǎo)的一整套教學(xué)新模式。而探究式教學(xué)是與直接接受式教學(xué)相對(duì)的,在任務(wù)驅(qū)動(dòng)的同時(shí),激發(fā)學(xué)生的好奇心,并驅(qū)使學(xué)生投入到知識(shí)獲取的自主學(xué)習(xí)活動(dòng)中。任務(wù)驅(qū)動(dòng)探究式教學(xué)模式是將兩者有機(jī)的結(jié)合起來(lái),使學(xué)生能夠明確學(xué)習(xí)目標(biāo)、提高學(xué)習(xí)興趣、提升學(xué)習(xí)動(dòng)力,發(fā)揮學(xué)生的自主學(xué)習(xí)能力、創(chuàng)造能力,培養(yǎng)學(xué)生分析問(wèn)題、解決問(wèn)題的能力。通過(guò)自主學(xué)習(xí),自行的完成階段性的教學(xué)任務(wù),以達(dá)到相應(yīng)的教學(xué)目標(biāo)。任務(wù)驅(qū)動(dòng)探究式教學(xué)模式,適合操作性和應(yīng)用性強(qiáng)的課程。任務(wù)驅(qū)動(dòng)探究式教學(xué)模式的核心思想是在教學(xué)方面強(qiáng)調(diào)任務(wù)驅(qū)動(dòng),在學(xué)習(xí)方面則強(qiáng)調(diào)探究式學(xué)習(xí)。因此必須合理地設(shè)計(jì)課程教學(xué)方案,在“教”和“學(xué)”兩個(gè)方面進(jìn)行設(shè)計(jì)。老師必須在任務(wù)設(shè)計(jì)、實(shí)施進(jìn)程管理、信息反饋等各方面做好銜接,保證學(xué)生能夠時(shí)刻跟上任務(wù)進(jìn)度,并保持足夠的興趣度。

3 基于案例驅(qū)動(dòng)探究式教學(xué)模式的數(shù)據(jù)挖掘課程改革

任務(wù)驅(qū)動(dòng)探究式教學(xué)模式是以學(xué)生為主體,教師主導(dǎo)的新型教學(xué)模式。教師的作用在于教學(xué)組織和任務(wù)布置的安排調(diào)度。利用任務(wù)引導(dǎo)學(xué)生學(xué)習(xí)相關(guān)知識(shí),提高學(xué)生的學(xué)習(xí)主動(dòng)性。因此,如何根據(jù)課程需要合理地進(jìn)行課程任務(wù)設(shè)計(jì),安排任務(wù)進(jìn)度都是課程改革成功的關(guān)鍵。

3.1 課程內(nèi)容重新整合

數(shù)據(jù)挖掘是一個(gè)由數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析挖掘、結(jié)論分析等各個(gè)步驟組成的整體過(guò)程。在現(xiàn)有的數(shù)據(jù)挖掘書中,針對(duì)數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理部分往往比較簡(jiǎn)化,大部分篇幅都在講述數(shù)據(jù)挖掘算法,如分類算法、關(guān)聯(lián)算法、聚類算法。如果在課程內(nèi)容設(shè)計(jì)時(shí),僅僅對(duì)算法做重點(diǎn)講述而忽略前期步驟,將會(huì)造成學(xué)生內(nèi)容知識(shí)的脫節(jié),無(wú)法體會(huì)數(shù)據(jù)挖掘整個(gè)流程,從而不能真正地理解數(shù)據(jù)挖掘思想本質(zhì)。因此,本課程教學(xué)目標(biāo)應(yīng)該是重點(diǎn)培養(yǎng)學(xué)生分析問(wèn)題、解決問(wèn)題和團(tuán)隊(duì)協(xié)作能力,樹(shù)立數(shù)據(jù)挖掘思維體系,了解數(shù)據(jù)挖掘基本算法,能夠應(yīng)用數(shù)據(jù)挖掘軟件解決實(shí)際問(wèn)題并得到結(jié)果。

根據(jù)這個(gè)教學(xué)目標(biāo)對(duì)課程內(nèi)容進(jìn)行適當(dāng)調(diào)整。首先,增加緒論內(nèi)容并設(shè)置導(dǎo)入課。在導(dǎo)入課中增加生活中學(xué)生感興趣的數(shù)據(jù)挖掘故事,經(jīng)典案例以及各行業(yè)中的應(yīng)用,從而提高學(xué)生學(xué)習(xí)的興趣。其次,適當(dāng)增加數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理以及數(shù)據(jù)挖掘軟件的介紹,使得學(xué)生能夠明確數(shù)據(jù)怎么來(lái)、如何處理以及用什么工具處理等問(wèn)題。最后,有選擇地介紹基本的數(shù)據(jù)挖掘算法,所介紹的算法應(yīng)該是常見(jiàn)、易懂并且能夠很容易使用軟件實(shí)現(xiàn)的,如決策樹(shù)算法、K均值聚類算法、Apriori算法、樸素貝葉斯算法等。而針對(duì)比較難的算法,可以僅做介紹,讓學(xué)生在今后遇到此類問(wèn)題能夠自主的進(jìn)行學(xué)習(xí)。通過(guò)內(nèi)容的調(diào)整,一方面使得學(xué)生不會(huì)因?yàn)閿?shù)據(jù)挖掘算法繁多且復(fù)雜而懼怕,保證學(xué)生的學(xué)習(xí)興趣,從而很好的引導(dǎo)其自主學(xué)習(xí),提高教學(xué)效果。另一方面,數(shù)據(jù)挖掘算法在不斷的改進(jìn),不可能在課程中覆蓋所有。通過(guò)基本算法和工具的結(jié)合,能夠很好地幫助學(xué)生從算法理論轉(zhuǎn)變成算法實(shí)現(xiàn),從而真正的進(jìn)行數(shù)據(jù)挖掘工作。即使出現(xiàn)了新的算法,也能夠舉一反三,進(jìn)行軟件實(shí)現(xiàn)。

3.2 組織方式的改變

任務(wù)驅(qū)動(dòng)探究式教學(xué)模式必須以課程任務(wù)為依托。改變以往以純理論的教學(xué)方式,加入實(shí)踐和課堂討論環(huán)節(jié),將理論知識(shí)講解和課程任務(wù)有機(jī)地結(jié)合到一起??紤]到數(shù)據(jù)挖掘連貫性以及工程龐大性,可以考慮以項(xiàng)目化的方式進(jìn)行。將學(xué)生6個(gè)人左右分為一組,自主的在老師所提供的數(shù)據(jù)共享平臺(tái)中尋找感興趣的問(wèn)題進(jìn)行分析研究。將整個(gè)項(xiàng)目分解成為數(shù)據(jù)搜集、數(shù)據(jù)預(yù)處理、探索性分析、數(shù)據(jù)挖掘、結(jié)果分析等一系列的小任務(wù),安排階段性的任務(wù)目標(biāo),層序漸進(jìn),逐步的建立學(xué)生完成項(xiàng)目的信心并最終完成整個(gè)項(xiàng)目。

學(xué)生是項(xiàng)目的負(fù)責(zé)人,在接受一個(gè)短期任務(wù)后,就要自主的開(kāi)始進(jìn)行任務(wù)的執(zhí)行。老師僅僅在課堂中進(jìn)行了基本知識(shí)的講解,學(xué)生要完成任務(wù)就必須學(xué)習(xí)更多的課外知識(shí)。項(xiàng)目的研究?jī)?nèi)容是自己選擇的,而且完成階段性的任務(wù)并不是那么的遙不可及,所以學(xué)生有足夠的興趣和信心去完成。通過(guò)查閱資料、學(xué)習(xí)知識(shí)、任務(wù)分配、安排和組織實(shí)施等,完成教學(xué)任務(wù)的同時(shí)也鍛煉了他們團(tuán)隊(duì)合作意識(shí)、溝通能力、自主學(xué)習(xí)能力。這些能力的培養(yǎng)才能使他們?cè)谥R(shí)不斷更新的當(dāng)今,緊密地跟緊前沿技術(shù)并更好的去解決實(shí)際問(wèn)題。

3.3 任務(wù)進(jìn)度控制和評(píng)價(jià)

課程的課堂教學(xué)時(shí)間是有限的,老師不可能在課堂中既完成理論教學(xué),又給足時(shí)間讓學(xué)生進(jìn)行課程任務(wù),所以項(xiàng)目的實(shí)施必須是在課后進(jìn)行。學(xué)生要在課外進(jìn)行大量的參考資料閱讀、相互討論及數(shù)據(jù)分析的工作。那么老師作為主導(dǎo)者,必須及時(shí)地了解學(xué)生階段性任務(wù)的完成情況,對(duì)當(dāng)前學(xué)生遇到的困難及時(shí)給出建議和意見(jiàn),甚至在學(xué)生遇到真正的難題給予技術(shù)上的支持。所以本課程在理論課教學(xué)的同時(shí),也開(kāi)展了定期的討論課,讓學(xué)生定期匯報(bào)階段性任務(wù)的完成情況,及時(shí)進(jìn)行任務(wù)進(jìn)度的控制。整個(gè)項(xiàng)目的實(shí)施流程和任務(wù)分解如圖1。根據(jù)流程安排,理論引導(dǎo)學(xué)生任務(wù)的進(jìn)行。通過(guò)學(xué)生任務(wù)的完成情況,老師在完成基本理論教學(xué)的同時(shí),有針對(duì)性的對(duì)學(xué)生所遇到的問(wèn)題進(jìn)行講解,最終目標(biāo)是引導(dǎo)學(xué)生完成整個(gè)教學(xué)項(xiàng)目。一方面,學(xué)生自主學(xué)習(xí)能力提高,有足夠的興趣和能力去完成每個(gè)階段的任務(wù),并且會(huì)更加認(rèn)真的在理論課中尋找自己想得到的知識(shí)。另一方面,由于學(xué)生自主尋找的項(xiàng)目多樣性,選擇的算法不可控性,同樣促使老師不斷的提高自身,教學(xué)內(nèi)容不再一成不變,而是隨時(shí)的更新。

圖1 任務(wù)進(jìn)度安排流程圖

良好的進(jìn)度控制需要一個(gè)完善的評(píng)價(jià)體系做輔助。只有做好每個(gè)階段性的評(píng)價(jià),引入一定的競(jìng)爭(zhēng)機(jī)制,才能提高學(xué)生積極性和自信心。首先,必須做到極端性任務(wù)的目標(biāo)和時(shí)間明確化。要完成什么,在什么時(shí)候完成,都必須事先和學(xué)生約定。對(duì)沒(méi)有按時(shí)完成任務(wù)的組,必須做出相應(yīng)的懲罰,如扣除本階段的得分。除此之外必須分析原因,搞清為什么無(wú)法完成任務(wù),有針對(duì)性地提出建議和意見(jiàn),以便學(xué)生能夠及時(shí)調(diào)整。其次,評(píng)價(jià)標(biāo)準(zhǔn)既要唯一又要區(qū)別對(duì)待。唯一標(biāo)準(zhǔn)指的是一樣的進(jìn)度,一樣的任務(wù),一樣的要求。但是數(shù)據(jù)挖掘項(xiàng)目會(huì)根據(jù)研究領(lǐng)域不同、使用算法不同、數(shù)據(jù)質(zhì)量不同而造成難度差異,一味的同等標(biāo)準(zhǔn)要求會(huì)造成選擇難度較高項(xiàng)目的學(xué)生積極性下降。所以老師必須客觀的分析每個(gè)項(xiàng)目難度,并區(qū)別對(duì)待。對(duì)于由客觀難度造成任務(wù)進(jìn)程落后的組,應(yīng)當(dāng)在解決問(wèn)題后給予獎(jiǎng)勵(lì)。并且,在最終論文評(píng)定時(shí),適當(dāng)?shù)募尤胍欢ǖ碾y度分,以鼓勵(lì)學(xué)生培養(yǎng)自我挑戰(zhàn)的精神。通過(guò)教師評(píng)價(jià)、組長(zhǎng)評(píng)價(jià)、組間評(píng)價(jià)等評(píng)價(jià)方式,客觀的合理的對(duì)整個(gè)項(xiàng)目實(shí)施作出最終的評(píng)價(jià)結(jié)果。

4 結(jié)束語(yǔ)

通過(guò)案例驅(qū)動(dòng)探究式教學(xué)模式的改革,數(shù)據(jù)挖掘課程在教學(xué)效果上得到了實(shí)質(zhì)性的提高。人才培養(yǎng)上卓有成效,老師也在教學(xué)過(guò)程中受益良多。通過(guò)教學(xué)模式的改革,使得原本枯燥、難懂的理論教學(xué)變得生動(dòng)。學(xué)生的求知欲望得到了激發(fā),課程的學(xué)習(xí)目標(biāo)更加的明確,教學(xué)質(zhì)量也有很大的提高。同時(shí)我們發(fā)現(xiàn),學(xué)生的自主學(xué)習(xí)能力、匯報(bào)能力、論文撰寫能力都有了明顯的提高,并且有很多教學(xué)項(xiàng)目被用于畢業(yè)論文的研究。數(shù)據(jù)挖掘課程也因此被選為寧波市級(jí)的智慧產(chǎn)業(yè)核心引導(dǎo)課程。

參考文獻(xiàn):

篇11

知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)一詞最早出現(xiàn)在1989年8月美國(guó)底特律召開(kāi)的第11屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上[1]。1996年,知識(shí)發(fā)現(xiàn)被Fayyad U,Piatetsky,Shapiro G和Smyth P定義為:知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過(guò)程[2]。對(duì)KDD的研究主要包括從數(shù)據(jù)庫(kù)的角度進(jìn)行研究以強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的效率,從機(jī)器學(xué)習(xí)的角度進(jìn)行研究以強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的有效性,從統(tǒng)計(jì)分析的角度進(jìn)行研究以強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的正確性,從微觀經(jīng)濟(jì)學(xué)的角度進(jìn)行研究以強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的最大效用。KDD過(guò)程是多個(gè)步驟交互螺旋式上升的學(xué)習(xí)和總結(jié)過(guò)程[3],基本流程包括:

(1)限定學(xué)習(xí)領(lǐng)域,儲(chǔ)備預(yù)先知識(shí)、確定學(xué)習(xí)目標(biāo);

(2)聚焦目標(biāo)數(shù)據(jù)集,選擇一個(gè)數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦;

(3)數(shù)據(jù)預(yù)處理,數(shù)據(jù)降噪或數(shù)據(jù)清洗;

(4)數(shù)據(jù)轉(zhuǎn)換;

(5)確定數(shù)據(jù)挖掘功能法則;

(6)獲得知識(shí)信息、運(yùn)用知識(shí)成果并重新選定學(xué)習(xí)目標(biāo)。

在創(chuàng)新的過(guò)程中,單單依靠顯性知識(shí)已經(jīng)不足以支撐整個(gè)思維求異和技術(shù)創(chuàng)新的全流程。隨著數(shù)據(jù)量的爆炸式增長(zhǎng),傳統(tǒng)數(shù)據(jù)庫(kù)的檢索查詢已不能滿足信息社會(huì)的深層次需求,再加上傳統(tǒng)分析手段的落后,大量數(shù)據(jù)來(lái)不及整理、分析或利用就已“時(shí)過(guò)境遷”成為無(wú)效信息,而且被長(zhǎng)期積壓在數(shù)據(jù)庫(kù)中浪費(fèi)存儲(chǔ)資源。為了及時(shí)消解數(shù)據(jù)產(chǎn)生和數(shù)據(jù)理解之間的矛盾,還必須定期對(duì)數(shù)據(jù)進(jìn)行深度挖掘,使得大量被隱藏的、有價(jià)值的信息得到有效利用。

(二)數(shù)據(jù)挖掘的理論探索

數(shù)據(jù)挖掘(Data Mining)是指使用算法來(lái)抽取信息和模式,通常是知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)重要步驟。數(shù)據(jù)挖掘融合了機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)理論、人工智能及信息管理系統(tǒng)等多門學(xué)科的最新成果。應(yīng)用數(shù)據(jù)挖掘技術(shù)從大型數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱藏在其中的規(guī)律和有用信息,為管理層決策提供事實(shí)型數(shù)據(jù)和研究模式。

根據(jù)KDD的目標(biāo)任務(wù),數(shù)據(jù)挖掘任務(wù)可分為:分類或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、相似模式發(fā)現(xiàn)、混沌模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等。而所要挖掘的對(duì)象則可以分為:關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)以及web等對(duì)象的挖掘。從方法論講,其挖掘方法一般分為:聚類分析、探索性分析、機(jī)器、統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)(Neural Network)、遺傳算法(Genetic Algorithm)、數(shù)據(jù)庫(kù)、近似推理和不確定性推理、基于證據(jù)理論和元模式、現(xiàn)代數(shù)學(xué)分析、粗糙集(Rough Set)、集成方法等方法[4]。

(三)小結(jié)

綜上,知識(shí)發(fā)現(xiàn)用于從大量數(shù)據(jù)中抽取規(guī)律信息,發(fā)現(xiàn)非預(yù)期或潛在的價(jià)值量,而數(shù)據(jù)挖掘作為知識(shí)發(fā)現(xiàn)的重要一環(huán)是與實(shí)踐應(yīng)用緊密相連的,兩者不僅僅是對(duì)數(shù)據(jù)的簡(jiǎn)單檢索調(diào)用,而是從數(shù)據(jù)集合中自動(dòng)提取出隱含在數(shù)據(jù)中的關(guān)系和模式,進(jìn)而對(duì)未來(lái)可能發(fā)生的行為進(jìn)行預(yù)測(cè),為決策者提供有力支持。

二、高校成績(jī)管理與學(xué)科建設(shè)

成績(jī)是學(xué)生在校學(xué)習(xí)期間對(duì)所學(xué)知識(shí)理解掌握情況和教師教學(xué)質(zhì)量評(píng)價(jià)的原始記錄,對(duì)學(xué)校的教學(xué)管理和教學(xué)改革措施評(píng)價(jià)具有重要的參考價(jià)值[5]。成績(jī)管理是高校教學(xué)管理中的最為基礎(chǔ)性的一個(gè)環(huán)節(jié),是根據(jù)教學(xué)目的和教學(xué)任務(wù),

通過(guò)學(xué)生的實(shí)際量化考核分?jǐn)?shù)來(lái)進(jìn)行統(tǒng)計(jì)、查閱和分析的綜合性數(shù)據(jù)處理過(guò)程。該過(guò)程的科學(xué)與否,直接關(guān)系到教務(wù)管理的實(shí)際質(zhì)量和教學(xué)工作的可持續(xù)發(fā)展,特別是在網(wǎng)絡(luò)化和信息化的新形勢(shì)下,該項(xiàng)工作被素質(zhì)教育賦予更加深遠(yuǎn)的現(xiàn)實(shí)意義。本文所指學(xué)科成績(jī)不僅限于學(xué)生的筆試成績(jī),還包括了學(xué)生參加各種校內(nèi)外實(shí)習(xí)和培訓(xùn),以及其他形式素質(zhì)教育的量化數(shù)據(jù)。

(一)高校成績(jī)管理所面臨的新形勢(shì)

從宏觀上講,隨著國(guó)家高等教育普及工作的不斷推進(jìn),以及教育戰(zhàn)線“以人為本”理念的逐步深入,高校教務(wù)在成績(jī)管理這一環(huán)節(jié)上所面臨的任務(wù)顯得比以往任何時(shí)刻都更加繁重。

首先,院校擴(kuò)建和學(xué)生擴(kuò)招為學(xué)科成績(jī)管理模塊在數(shù)據(jù)容量上增加了壓力。近幾年,隨著一些高校教學(xué)資源的整合和擴(kuò)充,許多高校設(shè)立了新校區(qū)、設(shè)置了新專業(yè),反映在學(xué)生成績(jī)管理上則是成績(jī)數(shù)據(jù)的時(shí)空容量同時(shí)增長(zhǎng)。每多出一個(gè)學(xué)生,從學(xué)籍材料到各年度學(xué)科數(shù)據(jù)再到圖形化成績(jī)資料都會(huì)相應(yīng)增加,教師教務(wù)管理系統(tǒng)所要處理的信息量也會(huì)相應(yīng)增加,這首先在量上增加了數(shù)據(jù)壓力。

篇12

一、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在客戶忠誠(chéng)度分析中的應(yīng)用

1.數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse,簡(jiǎn)稱DW)是一種面向數(shù)據(jù)應(yīng)用的數(shù)據(jù)管理技術(shù),它以關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)為基礎(chǔ)。按照業(yè)界公認(rèn)的數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)始人W.H.Inmon的觀點(diǎn),數(shù)據(jù)倉(cāng)庫(kù)可定義為:“一個(gè)面向主題的、集成的隨時(shí)間變化的非易失的數(shù)據(jù)集合,用于支持管理層的決策過(guò)程”??梢园l(fā)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)具有這樣的一些重要特性:面向主題性、數(shù)據(jù)集成性、數(shù)據(jù)的時(shí)變性、數(shù)據(jù)的非易失性、數(shù)據(jù)的集合性和支持決策作用。

數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是企業(yè)智能管理的重要基礎(chǔ)和手段,已經(jīng)成為企業(yè)級(jí)信息管理和決策支持系統(tǒng)建設(shè)過(guò)程中必要的技術(shù)支持。數(shù)據(jù)倉(cāng)庫(kù)是進(jìn)行客戶忠誠(chéng)度分析的基礎(chǔ)。

2.數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施步驟。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與傳統(tǒng)的OLTP系統(tǒng)設(shè)計(jì)有較大區(qū)別,不但需要設(shè)計(jì)一個(gè)數(shù)據(jù)庫(kù)和一個(gè)用戶接口,還必須設(shè)計(jì)數(shù)據(jù)裝載策略、數(shù)據(jù)存取工具和不間斷的維護(hù)方案。數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施步驟:

(1)啟動(dòng)項(xiàng)目,確定建立分析客戶忠誠(chéng)度的數(shù)據(jù)倉(cāng)庫(kù),制定項(xiàng)目計(jì)劃。建立技術(shù)環(huán)境,選擇實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)所需要的軟硬件資源。

(2)確定數(shù)據(jù)倉(cāng)庫(kù)主題。針對(duì)客戶信息以及客戶購(gòu)買信息等相關(guān)的數(shù)據(jù)倉(cāng)庫(kù),與企業(yè)前臺(tái)部門的業(yè)務(wù)人員多進(jìn)行溝通,詳細(xì)了解業(yè)務(wù)需求、報(bào)表等需求。

(3)對(duì)客戶購(gòu)買信息進(jìn)行詳細(xì)定義,對(duì)事實(shí)表和維表的關(guān)系詳細(xì)定義。由于客戶購(gòu)買信息數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)量隨時(shí)間積累增大,而且隨著電子商務(wù)的進(jìn)一步深入,數(shù)據(jù)量更是激增,所以必須對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行精心設(shè)計(jì),以免隨著倉(cāng)庫(kù)中數(shù)據(jù)量快速增長(zhǎng),造成系統(tǒng)分析和查詢性能的急劇下降。

(4)數(shù)據(jù)倉(cāng)庫(kù)的物理庫(kù)設(shè)計(jì)??紤]數(shù)據(jù)的存儲(chǔ)方式,使得系統(tǒng)有較好的性能。完成索引的建立以及數(shù)據(jù)更新網(wǎng)絡(luò)的設(shè)計(jì)。

(5)源數(shù)據(jù)抽取、清洗、整理及裝載設(shè)計(jì)。客戶購(gòu)買信息數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)自企業(yè)的前臺(tái)作業(yè)系統(tǒng)以及前臺(tái)業(yè)務(wù)部門。這些數(shù)據(jù)必須根據(jù)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì),以統(tǒng)一定義的格式從各個(gè)系統(tǒng)抽取出來(lái),經(jīng)過(guò)清理、轉(zhuǎn)換、綜合,再經(jīng)過(guò)數(shù)據(jù)裝載和整理程序進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)。

(6)開(kāi)發(fā)支持用戶決策的數(shù)據(jù)分析工具。建立客戶購(gòu)買信息數(shù)據(jù)倉(cāng)庫(kù)的最終目的是為了實(shí)現(xiàn)前臺(tái)部門以及企業(yè)高層的決策支持,所以需要各種工具對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行訪問(wèn)分析,如優(yōu)化查詢工具、統(tǒng)計(jì)分析工具、數(shù)據(jù)挖掘工具等,通過(guò)分析工具實(shí)現(xiàn)決策支持需要。

(7)維護(hù)方案的設(shè)計(jì)。保證客戶信息數(shù)據(jù)倉(cāng)庫(kù)的正常運(yùn)行,對(duì)其進(jìn)行管理維護(hù),保證系統(tǒng)保持優(yōu)良的性能。

二、據(jù)挖掘技術(shù)在客戶忠誠(chéng)度分析中的應(yīng)用

1.數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱DM),簡(jiǎn)單地講就是從大量數(shù)據(jù)中挖掘或抽取出知識(shí)。數(shù)據(jù)挖掘概念的定義描述有若干版本,一個(gè)普遍被采用的定義是“數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(Knowledge Discovery from Database,簡(jiǎn)稱KDD),它是一個(gè)從大量數(shù)據(jù)中抽取挖掘出未知的、有價(jià)值的模式或規(guī)律等知識(shí)的復(fù)雜過(guò)程?!?/p>

2.數(shù)據(jù)挖掘在客戶忠誠(chéng)度分析中常用方法

(1)決策樹(shù)(Decision Tree)決策算法。決策樹(shù)是一個(gè)類似于流程圖的樹(shù)結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)樹(shù)葉節(jié)點(diǎn)代表或類分布。決策樹(shù)算法包括樹(shù)的構(gòu)造和樹(shù)的剪枝,有兩種常用的剪枝方法:先剪枝和后剪枝。

(2)神經(jīng)網(wǎng)絡(luò)(Neural Network)。神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,其中每個(gè)連接都與一個(gè)權(quán)相連,在學(xué)習(xí)階段,通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測(cè)輸入樣本的正確類標(biāo)號(hào)來(lái)學(xué)習(xí)。

(3)遺傳算法(Genetic Algorithms)。遺傳算法根據(jù)適者生存的原則,形成由當(dāng)前群體中最適合的規(guī)則組成新的群體,以及這些規(guī)則的后代。

3.數(shù)據(jù)挖掘在客戶忠誠(chéng)度分析中的應(yīng)用

(1)運(yùn)用數(shù)據(jù)挖掘技術(shù),對(duì)客戶進(jìn)行細(xì)分,提供個(gè)性化的服務(wù)。因?yàn)椴煌目蛻魹槠髽I(yè)提供的價(jià)值不同,企業(yè)需要重點(diǎn)服務(wù)的是那些能為企業(yè)提供高價(jià)值的大客戶;又因?yàn)槠髽I(yè)的資源有限,如何針對(duì)不同客戶進(jìn)行有限資源的優(yōu)化應(yīng)用也是每個(gè)企業(yè)必須考慮的重要問(wèn)題,所以有必要對(duì)客戶進(jìn)行細(xì)分,進(jìn)行有針對(duì)性的運(yùn)營(yíng),提供個(gè)性化的服務(wù)。

(2)運(yùn)用數(shù)據(jù)挖掘技術(shù)預(yù)測(cè)客戶需求??蛻舻男枨蟛皇且怀刹蛔兊?、單一的,而是快速改變著的、多樣化的。運(yùn)用數(shù)據(jù)挖掘技術(shù)及時(shí)預(yù)側(cè)客戶的需求,也就是“想客戶之所想”,及時(shí)調(diào)整產(chǎn)品的結(jié)構(gòu)和內(nèi)容,搶先贏得商機(jī),為客戶提供其真正需要的產(chǎn)品,吸引客戶,獲取高額利潤(rùn)。

(3)進(jìn)行客戶流失分析。不要等到客戶離開(kāi)了企業(yè)再去尋找解決辦法,時(shí)間就是金錢。客戶選擇了離開(kāi)企業(yè),肯定是有原因的,應(yīng)該注意客戶流失的時(shí)間、分析流失的原因,及時(shí)采取措施,最大限度地留住客戶。

(4)挖掘出影響客戶忠誠(chéng)度的重要因素,重點(diǎn)改善。影響客戶忠誠(chéng)度的因素可能會(huì)有很多,但是要做的是用數(shù)據(jù)挖掘工具找出那些最主要的因素,對(duì)這些因素認(rèn)真分析,采取有效的措施以提高客戶忠誠(chéng)度。

三、結(jié)束語(yǔ)

數(shù)據(jù)挖掘作為一種信息技術(shù)正越來(lái)越受到企業(yè)的關(guān)注,都在想辦法用數(shù)據(jù)挖掘來(lái)解決企業(yè)海量數(shù)據(jù)的問(wèn)題。企業(yè)能夠充分有效地利用數(shù)據(jù)挖掘這種新技術(shù)來(lái)為企業(yè)提供重要的決策信息,提高客戶忠誠(chéng)度的,使企業(yè)在激烈的市場(chǎng)競(jìng)爭(zhēng)中立于不敗之地。

篇13

隨著世界經(jīng)濟(jì)的信息化和全球化趨勢(shì)增強(qiáng),電子商務(wù)正逐步走向全面應(yīng)用,并滲透到社會(huì)經(jīng)濟(jì)的各個(gè)層面。越來(lái)越多的公司紛紛建立網(wǎng)站,從事商務(wù)活動(dòng),無(wú)論是新興網(wǎng)絡(luò)企業(yè),還是傳統(tǒng)企業(yè)E化,網(wǎng)站都已經(jīng)成為企業(yè)經(jīng)營(yíng)必不可少的網(wǎng)絡(luò)營(yíng)銷工具,并且在增強(qiáng)企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)、擴(kuò)大企業(yè)影響、增加銷售收入等方面發(fā)揮著越來(lái)越大的作用。

1 E忠誠(chéng)時(shí)代的來(lái)臨

隨著電子商務(wù)的發(fā)展,客戶的重要性被提升到一個(gè)前所未有的高度,它已經(jīng)成為電子商務(wù)成功的關(guān)鍵。在某種程度上,客戶關(guān)系加商務(wù)模式,已經(jīng)被譽(yù)為電子商務(wù)成功的秘密。

電子商務(wù)環(huán)境下的客戶忠誠(chéng),又稱為E忠誠(chéng)。2000年,美國(guó)Bain&Comapany公司的電子商務(wù)主管Fredrick F.Reichheld與Phill Sehefter在研究了多家杰出網(wǎng)絡(luò)公司和上千名網(wǎng)絡(luò)顧客的消費(fèi)行為后,指出在虛擬的網(wǎng)絡(luò)世界中同樣存在顧客忠誠(chéng),并稱為“E忠誠(chéng)”;他們同時(shí)認(rèn)為,E忠誠(chéng)是電子商務(wù)企業(yè)在網(wǎng)上取得成功的“秘密武器”。2001年,國(guó)際著名的咨詢公司KPMG Consulting在與牛津大學(xué)零售管理學(xué)院(OX―IRM)的合作研究項(xiàng)目中把E忠誠(chéng)定義為:E忠誠(chéng)指網(wǎng)絡(luò)顧客對(duì)網(wǎng)上企業(yè)或其品牌的忠誠(chéng)。2003年3月,Moonkyu Lee博士通過(guò)實(shí)證研究,將E忠誠(chéng)定義為:網(wǎng)絡(luò)顧客基于以往的購(gòu)物體驗(yàn)和對(duì)未來(lái)的預(yù)期,愿意再次光顧當(dāng)前選擇的電子商務(wù)網(wǎng)站的意向性。彭香霞與賀勤將“顧客重復(fù)選擇該網(wǎng)站購(gòu)買某一特定產(chǎn)品或某些產(chǎn)品的心理和行為傾向”理解為E忠誠(chéng),并認(rèn)為同時(shí)滿足“情感E忠誠(chéng)”和“行為E忠誠(chéng)”兩個(gè)維度,才能稱作E忠誠(chéng)。無(wú)論眾多學(xué)者如何定義E忠誠(chéng),但E忠誠(chéng)的時(shí)代確確實(shí)實(shí)來(lái)臨了。

2 企業(yè)網(wǎng)站客戶忠誠(chéng)管理現(xiàn)狀

忠誠(chéng)的客戶是企業(yè)贏利的源泉,是企業(yè)最大的無(wú)形資產(chǎn),在競(jìng)爭(zhēng)激烈的網(wǎng)絡(luò)市場(chǎng)中,如何牢牢地鎖住客戶,提高客戶忠誠(chéng)度便成為了如今企業(yè)網(wǎng)站關(guān)注的要點(diǎn)。為了能夠有效開(kāi)展客戶忠誠(chéng)管理,提升網(wǎng)站客戶忠誠(chéng)度,眾多企業(yè)網(wǎng)站在維系客戶關(guān)系方面可謂是“八仙過(guò)海,各顯神通”。然而對(duì)于絕大多數(shù)企業(yè)網(wǎng)站而言。雖然能在短時(shí)間內(nèi)很快地聚集大量的訪問(wèn)量,但對(duì)于客戶關(guān)系的長(zhǎng)期保持,提升企業(yè)網(wǎng)站客戶忠誠(chéng)度,其效果并不顯著。主要原因在于,網(wǎng)站客戶忠誠(chéng)的形成與培養(yǎng),比傳統(tǒng)環(huán)境下難度更大,決定因素更多。 就難度而言,①企業(yè)對(duì)客戶信息管理水平較低;②不完善的機(jī)制使客戶對(duì)企業(yè)缺乏信任;③針對(duì)客戶需求的差異,企業(yè)缺乏建立個(gè)性化服務(wù)的意識(shí);④顧客滿意難以達(dá)到;⑤低廉的搜尋成本容易改變購(gòu)物選擇;⑥交易的安全性難以保證;⑦“口碑”負(fù)效應(yīng)不可忽視。這些問(wèn)題的存在,決定了要在虛擬環(huán)境中維系與客戶之間的關(guān)系、培養(yǎng)與提升客戶忠誠(chéng)度,是一件十分艱難的事情。

就決定因素而言,電子商務(wù)環(huán)境下企業(yè)網(wǎng)站客戶忠誠(chéng)既受客戶主觀因素的影響,也受外在客觀因素的影響,這兩者共同構(gòu)成企業(yè)網(wǎng)站客戶忠誠(chéng)的趨動(dòng)模型,如圖l所示:

從圖1可以看出,決定企業(yè)網(wǎng)站客戶忠誠(chéng)的外在客觀因素主要有轉(zhuǎn)移成本、客戶價(jià)值、營(yíng)銷策略、產(chǎn)品質(zhì)量、客戶服務(wù)等;決定企業(yè)網(wǎng)站客戶忠誠(chéng)的內(nèi)在主觀因素主要有客戶滿意度、客戶愉悅度和客戶信任度,并且客戶感到滿意、擁有愉悅和產(chǎn)生信任對(duì)忠誠(chéng)具有遞進(jìn)作用。同時(shí),客觀因素影響著主觀因素,兩者存在著正相關(guān)關(guān)系。

隨著電子商務(wù)的深入發(fā)展,企業(yè)網(wǎng)站客戶忠誠(chéng)度變得岌岌可危:客戶的選擇范圍驟然擴(kuò)大,流失趨勢(shì)增加;轉(zhuǎn)換成本降低,客戶更容易改變購(gòu)買決策;客戶需求個(gè)性化,經(jīng)驗(yàn)成熟化,使客戶的期望值大大提高,對(duì)企業(yè)提出了服務(wù)敏捷、產(chǎn)品優(yōu)質(zhì)、定位準(zhǔn)確等高標(biāo)準(zhǔn)要求。

3 Web數(shù)據(jù)挖掘是提升網(wǎng)站客戶忠誠(chéng)度的關(guān)鍵技術(shù)

電子商務(wù)的發(fā)展,要求企業(yè)借助于信息技術(shù)和網(wǎng)絡(luò)技術(shù),以客戶利益為出發(fā)點(diǎn),以不斷滿足客戶需求和為客戶創(chuàng)造價(jià)值為目標(biāo),與客戶建立長(zhǎng)期穩(wěn)定的關(guān)系,不斷提高客戶的忠誠(chéng)度。而對(duì)用戶需求、興趣、愛(ài)好、身份的了解和獲取是提升網(wǎng)站客戶忠誠(chéng)度具備針對(duì)性的前提。20世紀(jì)80年代末興起的數(shù)據(jù)挖掘(DataMining)技術(shù),特別是Web數(shù)據(jù)挖掘技術(shù),為解決此問(wèn)題開(kāi)辟了一條道路。

Web數(shù)據(jù)挖掘就是從Web文檔和Web活動(dòng)中發(fā)現(xiàn)、抽取感興趣的潛在的有用模式和隱藏的信息。它以從Web上挖掘有用信息為目標(biāo),以數(shù)據(jù)挖掘、文檔挖掘、多媒體挖掘?yàn)榛A(chǔ),并綜合運(yùn)用計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)、人工智能、信息檢索、可視化、自然語(yǔ)言理解等技術(shù),將傳統(tǒng)的數(shù)據(jù)挖掘與Web結(jié)合起來(lái)。Web數(shù)據(jù)挖掘的基本處理過(guò)程如圖2所示:

在日益激烈的電子商務(wù)市場(chǎng)競(jìng)爭(zhēng)中,任何與消費(fèi)者行為有關(guān)的信息對(duì)經(jīng)營(yíng)者來(lái)說(shuō)都是非常寶貴的。Web服務(wù)器數(shù)據(jù)、客戶登記信息、服務(wù)器數(shù)據(jù)和業(yè)務(wù)往來(lái)數(shù)據(jù)是Web挖掘中的數(shù)據(jù)來(lái)源,都直接與客戶的商務(wù)行為模式相關(guān),而不論是客戶認(rèn)知忠誠(chéng)、情感忠誠(chéng)還是意向忠誠(chéng),最終都體現(xiàn)為客戶行為忠誠(chéng),也就是說(shuō),這些數(shù)據(jù)所表征出來(lái)的行為特征可以借助于一定的技術(shù)用來(lái)分析客戶的行為。通過(guò)Web數(shù)據(jù)挖掘,根據(jù)客戶的訪問(wèn)興趣、訪問(wèn)頻度、訪問(wèn)時(shí)間等數(shù)據(jù),能發(fā)現(xiàn)企業(yè)網(wǎng)站客戶共性和個(gè)性的知識(shí)、必然和偶然的知識(shí)、獨(dú)立和聯(lián)系的知識(shí)等,所有這些經(jīng)過(guò)分析,能對(duì)客戶的消費(fèi)行為如心理、能力、動(dòng)機(jī)、需求潛能作出統(tǒng)計(jì)和正確的分析,得到客戶的商務(wù)行為模式。根據(jù)挖掘的結(jié)果提出針對(duì)性的商務(wù)計(jì)劃,促進(jìn)企業(yè)網(wǎng)站更好地為客戶服務(wù),使客戶忠誠(chéng)度的提升成為可能。

4 基于Web數(shù)據(jù)挖掘的網(wǎng)站客戶忠誠(chéng)度提升模型

Web數(shù)據(jù)挖掘是輔助提升企業(yè)網(wǎng)站客戶忠誠(chéng)度的綜合分析工具和關(guān)鍵技術(shù),運(yùn)行在企業(yè)網(wǎng)站的客戶數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)之上,應(yīng)包括以下功能模塊:①過(guò)濾器:用來(lái)從Web數(shù)據(jù)庫(kù)中抽取相關(guān)數(shù)據(jù),進(jìn)行二義性分析,消除不一致性;②挖掘綜合器:是一個(gè)挖掘驅(qū)動(dòng)引擎,根據(jù)挖掘要求和挖掘方法的知識(shí)庫(kù)到Web數(shù)據(jù)挖掘算法庫(kù)中選擇合適的挖掘方法,并且使用該方法去執(zhí)行挖掘任務(wù);③方法選擇專家系統(tǒng)及知識(shí)庫(kù):它是Web數(shù)據(jù)挖掘的“大腦”,是一個(gè)規(guī)則集合,能夠根據(jù)不同的挖掘要求來(lái)選擇最有效的挖掘算法或幾種算法的序列組合,并且隨著應(yīng)用的深入,該知識(shí)庫(kù)可以不斷融入新的規(guī)則,以增加專家系統(tǒng)的智能性;~Web數(shù)據(jù)挖掘算法庫(kù):是一個(gè)數(shù)據(jù)挖掘分析方法的綜合性算法庫(kù);⑤人機(jī)交互界面:提供一個(gè)和分析人員交互的友好界面。如果本次的挖掘結(jié)果不能滿足分析人員的需要

或者還有進(jìn)一步的猜想,就可以再次從這里輸入挖掘需求;⑥方法驅(qū)動(dòng)模塊:它利用挖掘出來(lái)的有益信息,進(jìn)行相應(yīng)統(tǒng)計(jì)與分析的工作。據(jù)此分析,可以構(gòu)建一種基于Web數(shù)據(jù)挖掘的網(wǎng)站客戶忠誠(chéng)度提升模型,如圖3所示:

5 基于Web數(shù)據(jù)挖掘的網(wǎng)站客戶忠誠(chéng)度提升模型的運(yùn)行

5.1模型運(yùn)行的基本流程

基本流程:①明確Web數(shù)據(jù)挖掘的目標(biāo),確定提升網(wǎng)站客戶忠誠(chéng)度的應(yīng)用主題,并對(duì)挖掘目標(biāo)建立恰當(dāng)?shù)哪P停ǔ1仨氈付ㄒ幌盗形粗年P(guān)聯(lián)變量,如果可能的話,建立一關(guān)聯(lián)格式作為初始的假設(shè);②圍繞提升網(wǎng)站客戶忠誠(chéng)度這一主題收集數(shù)據(jù)源,并對(duì)數(shù)據(jù)進(jìn)行清理、轉(zhuǎn)換、集成等技術(shù)處理,將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式,裝載進(jìn)入客戶原始數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),等待進(jìn)一步處理;③建立規(guī)則庫(kù)和知識(shí)庫(kù),用于存儲(chǔ)已知的客戶行為忠誠(chéng)度的連接特征和新近數(shù)據(jù)挖掘形成的規(guī)則集,其中規(guī)則集是客戶商務(wù)模式與忠誠(chéng)度行為模式的反映,用于指導(dǎo)訓(xùn)練數(shù)據(jù)的收集及作為特征選擇的依據(jù);④選取合適的數(shù)據(jù)挖掘方法,構(gòu)建數(shù)據(jù)挖掘模型,進(jìn)行行為模式識(shí)別,從目標(biāo)數(shù)據(jù)中提取有價(jià)值的知識(shí)與數(shù)據(jù),然后對(duì)結(jié)果進(jìn)行分析和驗(yàn)證,調(diào)整數(shù)據(jù)挖掘模型,從而保證結(jié)果的可靠性和實(shí)用性,結(jié)果交給決策模塊處理;⑤決策庫(kù)將數(shù)據(jù)挖掘的結(jié)果與規(guī)則庫(kù)中的已知規(guī)則進(jìn)行模式匹配,融合專家知識(shí)與領(lǐng)域規(guī)則,把最有價(jià)值的信息區(qū)分開(kāi)來(lái),并且通過(guò)決策支持工具提交給決策者,用于支持提升客戶忠誠(chéng)度的相關(guān)策略處理。

5.2模式識(shí)別的技術(shù)方法

對(duì)客戶行為模式進(jìn)行識(shí)別是整個(gè)模型正常運(yùn)行并達(dá)到預(yù)定目標(biāo)的核心,針對(duì)網(wǎng)站客戶行為模式識(shí)別,常見(jiàn)的數(shù)據(jù)挖掘技術(shù)方法主要有:

?關(guān)聯(lián)規(guī)則。它是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間存在關(guān)聯(lián)的規(guī)則,即根據(jù)一個(gè)事物中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一項(xiàng)在同一事物中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法可以從Web訪問(wèn)事務(wù)集中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu),通過(guò)分析數(shù)據(jù)或記錄間的關(guān)系,決定哪些事情將一起發(fā)生。

?聚類分析。聚類是把一組個(gè)體按照相似性歸成若干類別,即“物以類聚”。在Web挖掘中存在兩種類型的聚類,即用戶聚類和網(wǎng)頁(yè)聚類。用戶聚類主要是把具有相似訪問(wèn)特征的用戶分在一組;網(wǎng)頁(yè)聚類,則可以找出具有相關(guān)內(nèi)容的網(wǎng)頁(yè)組。聚類分析可以從服務(wù)器訪問(wèn)信息數(shù)據(jù)中聚集出具有相似特性的用戶組,即把有相似特性的用戶、數(shù)據(jù)項(xiàng)集合到一起。

?分類分析。分類是將一組組個(gè)體分門別類地歸入預(yù)先設(shè)定好的幾個(gè)類中。分類的目的是通過(guò)統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法(包括決策樹(shù)法和規(guī)則歸納法)、神經(jīng)網(wǎng)絡(luò)方法等構(gòu)造一個(gè)分類模型,然后把數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射到給定類別中的某一個(gè)特定類,以對(duì)同一類別中的用戶提供相似的服務(wù)。

?統(tǒng)計(jì)分析。統(tǒng)計(jì)分析是統(tǒng)計(jì)用戶最常訪問(wèn)的網(wǎng)頁(yè)、每頁(yè)平均訪問(wèn)的時(shí)間、瀏覽路徑的平均長(zhǎng)度等數(shù)據(jù),以獲得用戶訪問(wèn)站點(diǎn)的基本信息。此外還能提供有限的低層次的錯(cuò)誤分析,比如檢測(cè)未授權(quán)入口點(diǎn),找出最常見(jiàn)不變的URL等。

?序列模式。序列模式挖掘技術(shù)就是試圖在時(shí)間戳有序的事務(wù)集中,找到一組數(shù)據(jù)項(xiàng)之后出現(xiàn)另一數(shù)據(jù)項(xiàng)的內(nèi)部事務(wù)模式,即挖掘出會(huì)話集之間有時(shí)間序列關(guān)系的模式,從而形成一組按時(shí)間排序的會(huì)話。通過(guò)序列模式研究,能夠預(yù)測(cè)用戶的訪問(wèn)模式,了解用戶的興趣及需求所在。

?決策樹(shù)算法。其基本原理是遞歸地將數(shù)據(jù)拆分成子集,以便每一個(gè)子集包含目標(biāo)變量類似的狀態(tài),這些目標(biāo)是可預(yù)測(cè)屬性。每一次對(duì)樹(shù)進(jìn)行拆分,都要評(píng)價(jià)所有的輸入屬性對(duì)可預(yù)測(cè)屬性的影響。當(dāng)這個(gè)遞歸過(guò)程結(jié)束時(shí),決策樹(shù)也就創(chuàng)建完了。結(jié)構(gòu)表示分類或決策集合,從而產(chǎn)生規(guī)則和發(fā)現(xiàn)規(guī)律。

?模式分析。通過(guò)選擇和觀察把發(fā)現(xiàn)的規(guī)則、模式和統(tǒng)計(jì)值轉(zhuǎn)換為知識(shí),再經(jīng)過(guò)分析得到有價(jià)值的模式,即那些有意義、感興趣的規(guī)則、模式,采用可視化技術(shù),以圖形界面的方式提供給使用者。

?路徑分析。路徑分析是一種找尋頻繁訪問(wèn)路徑的方法,它通過(guò)對(duì)Web服務(wù)器的日志文件中客戶訪問(wèn)站點(diǎn)的訪問(wèn)次數(shù)分析,從圖中挖掘出頻繁訪問(wèn)路徑。圖最直接的來(lái)源是網(wǎng)站結(jié)構(gòu)圖,其他圖也都是建立在頁(yè)面和頁(yè)面之間的聯(lián)系,或者是一定數(shù)量的用戶瀏覽頁(yè)面順序基礎(chǔ)之上的。

?異類分析。異類分析也稱為孤立點(diǎn)分析。所謂孤立點(diǎn)是指明顯偏離其他數(shù)據(jù),即不滿足一般模式或行為的數(shù)據(jù)。孤立點(diǎn)分析是數(shù)據(jù)挖掘的重要內(nèi)容,它包括孤立點(diǎn)的發(fā)現(xiàn)和孤立點(diǎn)的分析,其中孤立點(diǎn)的發(fā)現(xiàn)往往可以使人們發(fā)現(xiàn)一些真實(shí)的但又出乎意料的知識(shí);而孤立點(diǎn)的分析則可能發(fā)現(xiàn)比一般數(shù)據(jù)所包含的信息更有價(jià)值的數(shù)據(jù)。

5.3提升模型的主要應(yīng)用

提升企業(yè)網(wǎng)站客戶忠誠(chéng)度,關(guān)鍵是要從客戶的主觀因素和感覺(jué)出發(fā),提升客戶滿意度、客戶愉悅度和客戶信任度。通過(guò)對(duì)4類網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行挖掘,可以分析影響客戶忠誠(chéng)度的因素或客戶忠誠(chéng)度降低的征兆,進(jìn)而制定相關(guān)策略來(lái)提升企業(yè)網(wǎng)站客戶忠誠(chéng)度。

?預(yù)防客戶流失。互聯(lián)網(wǎng)加劇了企業(yè)間的競(jìng)爭(zhēng),企業(yè)獲得新客戶的成本不斷上升,如何保持現(xiàn)有客戶是所有企業(yè)面臨的一個(gè)重要問(wèn)題??蛻艟S持的性質(zhì)是“留住”那些可能流失的客戶。要留住這些客戶,首先要找出哪些客戶最可能“離我而去”,這就是數(shù)據(jù)挖掘要解決的問(wèn)題??赏ㄟ^(guò)數(shù)據(jù)挖掘?qū)蛻魯?shù)據(jù)庫(kù)中大量的客戶歷史交易記錄、人口統(tǒng)計(jì)信息及其相關(guān)資料進(jìn)行分析和處理,對(duì)流失客戶群作針對(duì)性研究,分析其特征,研究哪些因素會(huì)導(dǎo)致客戶流失,建立流失客戶模型,識(shí)別導(dǎo)致客戶流失的模式,然后用這些模式找出當(dāng)前客戶中類似的客戶,以便企業(yè)針對(duì)客戶的需求,采取相應(yīng)的措施防止這些客戶的流失,改善客戶關(guān)系,進(jìn)而達(dá)到保持原有客戶的目的。

?開(kāi)展客戶細(xì)分。客戶細(xì)分可以使企業(yè)對(duì)不同細(xì)分群中的客戶區(qū)別對(duì)待。企業(yè)需要對(duì)客戶群進(jìn)行分析,才能得到對(duì)客戶需求更加精確的理解和把握,從而可以有的放矢地進(jìn)行忠誠(chéng)度營(yíng)銷的策劃和服務(wù)組合。在不太明確客戶群體分類標(biāo)準(zhǔn)的情況下,可采取挖掘的聚類技術(shù),對(duì)客戶群進(jìn)行劃分。運(yùn)用聚類分析,從客戶檔案庫(kù)中發(fā)現(xiàn)不同客戶群,并且用購(gòu)買模式來(lái)刻畫不同客戶群的特征,可以方便地得到商家的主客戶群,以便決策者根據(jù)主客戶群的特征做相應(yīng)的訂貨、銷售、服務(wù)等決策。所有的客戶對(duì)于企業(yè)來(lái)說(shuō)價(jià)值都不是一樣的,在客戶細(xì)分過(guò)程中,應(yīng)加強(qiáng)重點(diǎn)客戶的發(fā)現(xiàn),發(fā)現(xiàn)哪些客戶是真正創(chuàng)造利潤(rùn)的客戶,哪些客戶是低利潤(rùn)甚至是無(wú)利潤(rùn)的客戶,然后采取不同的方案對(duì)待這些客戶。

?改進(jìn)網(wǎng)站設(shè)計(jì)。網(wǎng)頁(yè)是企業(yè)對(duì)外宣傳的重要組成部分,體現(xiàn)企業(yè)的整體形象,只有通過(guò)它才能開(kāi)展網(wǎng)上業(yè)務(wù),同時(shí)與客戶直接進(jìn)行溝通。因此,需要在網(wǎng)站上營(yíng)造一種生活和文化氛圍,一種精神世界,這種氛圍應(yīng)該和企業(yè)所提出的企業(yè)文化和營(yíng)銷概念相吻合,給顧客提供一種“賓至如歸”的感受。通過(guò)對(duì)客戶訪問(wèn)信息進(jìn)行挖掘,了解客戶的瀏覽行為,從而知道客戶

的興趣及需求所在,動(dòng)態(tài)調(diào)整Web頁(yè)面,修改網(wǎng)站結(jié)構(gòu)和外觀,按照大多數(shù)訪問(wèn)者的瀏覽模式對(duì)網(wǎng)站進(jìn)行組織,按其訪問(wèn)內(nèi)容來(lái)裁剪用戶與Web信息空間的交互,以滿足客戶的需要,吸引更多的客戶。從而在優(yōu)化網(wǎng)站設(shè)計(jì)時(shí),能從最終顧客的角度更新改進(jìn)作業(yè)流程,提供給顧客一站購(gòu)足的服務(wù)。

?提供個(gè)。客戶的需求不是一成不變的、單一的,而是快速改變著的、多樣化的。隨著生活水平的不斷提高,客戶的要求也越來(lái)越高,其個(gè)性化需求逐漸成為發(fā)展趨勢(shì)。企業(yè)要想贏得較高的客戶忠誠(chéng)和盈利能力,就一定要實(shí)現(xiàn)以下目標(biāo):在正確的時(shí)間、以正確的價(jià)格、通過(guò)正確的渠道將正確的產(chǎn)品(或服務(wù))提供給正確的客戶。這就要求企業(yè)網(wǎng)站必須記住客戶的特點(diǎn),與每位客戶發(fā)展溫馨、個(gè)性化關(guān)系,依據(jù)客戶的需要,提供適當(dāng)?shù)姆?wù)與信息。基于數(shù)據(jù)挖掘的個(gè)性化服務(wù),通過(guò)對(duì)客戶訪問(wèn)日志記錄信息的挖掘,以為每一位客戶建立一套個(gè)性化檔案為基礎(chǔ),可以提供包括個(gè)性化定制服務(wù)、個(gè)性化推薦服務(wù)、個(gè)性化檢索服務(wù)、個(gè)性化決策支持服務(wù)等內(nèi)容。

?優(yōu)化營(yíng)銷模式。即使是購(gòu)買同樣的商品,不同顧客的動(dòng)因也可能不一樣,有的追求質(zhì)量,有的講究外觀,有的貪圖方便,有的則喜歡其文化內(nèi)涵。所以企業(yè)必須采用一定的方法,了解顧客的購(gòu)買動(dòng)因,并集中起來(lái)加以分析,然后針對(duì)不同客戶的特點(diǎn),采取不同的營(yíng)銷策略組合。利用Web數(shù)據(jù)挖掘工具,了解顧客在網(wǎng)上購(gòu)買商品或接受服務(wù)時(shí)的選取習(xí)慣、鏈接習(xí)慣、商品組合習(xí)慣,發(fā)現(xiàn)那些隱藏在數(shù)據(jù)中的模式、關(guān)聯(lián)、規(guī)則和趨勢(shì),找出其中的規(guī)律,從而提高交叉網(wǎng)絡(luò)營(yíng)銷、“1對(duì)1”營(yíng)銷、頻率營(yíng)銷、會(huì)員制營(yíng)銷等營(yíng)銷模式的效率。

?營(yíng)造安全環(huán)境。信任是客戶忠誠(chéng)的一個(gè)決定性因素。從本質(zhì)上來(lái)說(shuō),信任支持了客戶那種認(rèn)為“可以在交易或者服務(wù)中得到積極成果”的信念。在電子商務(wù)環(huán)境下,一個(gè)安全交易的環(huán)境是客戶產(chǎn)生信任的首要條件。所以商家不僅要保證產(chǎn)品和服務(wù)質(zhì)量,還要加強(qiáng)對(duì)客戶的責(zé)任心,投入足夠的人力和物力,加強(qiáng)硬件上的建設(shè),從技術(shù)上保證網(wǎng)上交易的安全,并且要保護(hù)客戶的個(gè)人隱私,不能私自將他們的個(gè)人信息透露給其他機(jī)構(gòu)。Web數(shù)據(jù)挖掘通過(guò)訪問(wèn)路徑分析、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式分析、分類規(guī)則發(fā)現(xiàn)、聚類分析等技術(shù),從獲取的資源數(shù)據(jù)中提取與安全相關(guān)的系統(tǒng)特征屬性,并根據(jù)系統(tǒng)特征屬性自動(dòng)生成安全事件的檢測(cè)模型,用于對(duì)安全事件的自動(dòng)鑒別,加強(qiáng)安全審計(jì)、入侵檢測(cè)、病毒預(yù)警、安全評(píng)估等網(wǎng)絡(luò)安全防范的針對(duì)性,有利于提供一個(gè)安全的網(wǎng)絡(luò)交易環(huán)境。

5.4模型運(yùn)行的注意事項(xiàng)

建立在Web數(shù)據(jù)挖掘技術(shù)基礎(chǔ)上的企業(yè)網(wǎng)站客戶忠誠(chéng)度提升模型在運(yùn)行過(guò)程中,還應(yīng)注意以下一些事項(xiàng):

青青青草影院 | 国产伦久视频免费观看 视频| 99热精品在线| 欧美另类videosbestsex久久| 日韩一级黄色| 黄视频网站免费看| 日本免费乱人伦在线观看 | 天天做日日干| 久久久久久久网| 亚洲第一视频在线播放| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 日日夜夜婷婷| 久久国产精品永久免费网站| 日本免费乱人伦在线观看 | 成人影院久久久久久影院| 你懂的福利视频| 欧美激情一区二区三区视频| 国产成人精品影视| 国产原创中文字幕| 免费国产在线观看不卡| 国产一区二区精品尤物| 91麻豆tv| 久久精品免视看国产成人2021| 日韩在线观看视频黄| 91麻豆精品国产综合久久久| 国产网站在线| 九九免费高清在线观看视频| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 久久99中文字幕久久| 99久久精品费精品国产一区二区| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 精品国产三级a| 亚洲 国产精品 日韩| 一级女性全黄久久生活片| 在线观看导航| 青青久久精品国产免费看| a级黄色毛片免费播放视频| 成人av在线播放| 在线观看导航| 一级毛片视频播放| 午夜家庭影院| 国产91丝袜高跟系列| 尤物视频网站在线| 99热精品在线| 青青久久精品国产免费看| 成人在激情在线视频| 青青久热| 99色视频在线| 国产成人精品综合| 可以免费看毛片的网站| 美女免费精品视频在线观看| 欧美激情在线精品video| 日韩女人做爰大片| 日韩专区一区| 999精品在线| 精品国产一级毛片| 午夜欧美成人久久久久久| 麻豆系列 在线视频| 你懂的在线观看视频| 亚洲爆爽| 日韩欧美一二三区| 黄视频网站在线免费观看| 91麻豆tv| 久久精品大片| 成人免费一级毛片在线播放视频| 日韩在线观看网站| 黄色短视屏| 一本高清在线| 国产不卡在线观看| 超级乱淫黄漫画免费| 999精品影视在线观看| 色综合久久天天综合| 99色视频在线| 免费国产在线视频| 成人高清视频免费观看| 国产一区二区精品久久| 日韩中文字幕在线播放| 精品视频在线观看一区二区| 成人a大片在线观看| 国产不卡福利| 亚洲第一页乱| 日本在线不卡视频| 国产网站在线| 九九九网站| 久久99爰这里有精品国产| 夜夜操网| 国产不卡在线播放| 久久国产精品自线拍免费| 成人高清视频在线观看| 美国一区二区三区| 日韩综合| 日本免费看视频| 四虎影视库| 欧美激情一区二区三区在线播放| 国产视频在线免费观看| 国产视频久久久久| 美女免费精品高清毛片在线视| 欧美一区二区三区性| 一级片片| 欧美爱色| 亚洲第一色在线| 精品视频免费观看| 天天做日日爱| 国产一区二区精品在线观看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 日韩一级精品视频在线观看| 欧美1区| 九九九在线视频| 九九九国产| 九九精品影院| 九九九网站| 人人干人人插| 韩国毛片| 九九干| 日日日夜夜操| 你懂的在线观看视频| 青青久热| 日韩在线观看视频免费| 你懂的日韩| 日韩avdvd| 国产一区二区精品在线观看| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 精品视频在线观看视频免费视频| 日韩中文字幕在线亚洲一区| 国产精品12| 精品视频在线看| 你懂的福利视频| 精品视频在线观看视频免费视频| 国产成人啪精品视频免费软件| 尤物视频网站在线观看| 可以在线看黄的网站| 香蕉视频久久| 国产成人精品在线| 久久成人亚洲| 国产激情视频在线观看| 一级片免费在线观看视频| 天天做日日干| 成人免费观看网欧美片| 国产麻豆精品免费密入口| 日韩中文字幕在线观看视频| 天天色成人网| 精品视频在线观看视频免费视频 | 精品国产一区二区三区免费| 精品视频在线观看免费| 日韩avdvd| 欧美另类videosbestsex久久| 中文字幕Aⅴ资源网| 国产伦精品一区二区三区在线观看 | 人人干人人草| 亚洲精品永久一区| 麻豆午夜视频| 日日夜夜婷婷| 久久国产精品只做精品| 日韩女人做爰大片| 999精品在线| 美国一区二区三区| 亚欧成人毛片一区二区三区四区| 91麻豆国产| 成人免费观看视频| 黄色免费三级| 国产91视频网| 国产不卡在线播放| 欧美激情一区二区三区视频高清| 精品国产香蕉在线播出 | 中文字幕97| 成人a大片高清在线观看| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 久草免费在线观看| 国产一区二区精品久久91| 日韩中文字幕一区二区不卡| 国产美女在线观看| 欧美a级片视频| 国产美女在线一区二区三区| 精品视频在线观看视频免费视频| 97视频免费在线观看| 999精品视频在线| 国产不卡福利| 日本伦理黄色大片在线观看网站| 国产精品自拍在线观看| 精品视频一区二区| 久久成人性色生活片| 欧美激情一区二区三区中文字幕| 麻豆午夜视频| 国产网站在线| 91麻豆国产| 日日夜夜婷婷| 成人a大片在线观看| 欧美激情一区二区三区中文字幕| 日本特黄特色aaa大片免费| 免费国产在线视频| 91麻豆爱豆果冻天美星空| 欧美激情一区二区三区在线播放| 久久福利影视| 国产精品免费久久| 精品视频在线观看视频免费视频| 国产网站免费在线观看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 精品视频在线观看免费| 91麻豆精品国产自产在线| 成人a大片在线观看|