標題: 以歸納學習自關聯式資料庫中發掘知識
Knowledge Discovery from Relational Databases by Inductive Learning
作者: 薛如芳
Hsueh Ju Fang
黃書淵
Hwang Shu Yuen
資訊科學與工程研究所
關鍵字: 自資料庫中發掘知識;歸納邏輯學習系統;歸納學習;Knowledge Discovery from Databases;ILP Learning System;Inductive Learning
公開日期: 1994
摘要: 隨著資料量以及資料庫的快速劇增,對於自資料庫中發掘知識這個領域的 相關研究也越來越多。而一旦我們可以找到、或發掘在資料中的一些隱含 的訊息,則這些訊息在許多方面均有相當大的用處。因此,對於自資料庫 中發掘知識的相關技術及工具的需求,也越來越迫切。近年來在這領域已 有不少的方法被提出。各種不同的相關研究,包括歸納學習、語意詢問的 最佳化、專家系統、以及統計、資訊理論等各方面的技術,均已根據不同 的需要而被用在這領域中。本篇論文的動機在於提出一個能根據使用者對 於資料的不同觀點,自資料庫學得使用者有興趣的規則的方法。這個方法 結合了歸納邏輯學習系統以及一些資料擷取的方式自資料庫中來發掘知識 。在我們所提出的系統架構中,自資料庫中發掘知識的過程基本上可分為 四個步驟:首先,使用者的詢問先被轉換成資料庫管理系統可接受的結構 化詢問的形式。其次,根據詢問的結果來建立學習系統的訓練例子,並可 以加入使用者所指定的資料觀點以作為學習規則的指引。而根據這些例子 ,歸納學習系統將學得一些相對的規則或描述。最後,須對學得規則的性 質加以衡量,並去除一些性質不合於門檻標準的規則。我們以一個關聯式 資料庫中的資料庫為這個知識發掘系統的測我們以一個關聯式資料庫中的 資料庫為這個知識發掘系統的測試例子,並得到以使用者意向為基礎的規 則。結果顯示這是一個資料庫發掘知識系統的成功實作。 There is an increasing growing interest in knowledge discovery from/in databases (KDD) research area driven from the rapid increase in the amount of data and databases. Once we can find, discover the "hidden" information among the data, it will be very helpful in many aspects. As a result, there is an increasing demand of tools and techniques for discovering knowledge in databases. There are many KDD methods proposed in recently years. Various approaches including inductive learning system, knowledge acquistion, statistics, information theory ...etc. are applied in this field according to different needs. The motivation of this thesis is to propose a method to discover user-interest rules from different views on databases. The system combines an ILP system and some data extraction methods to discover user-interest descriptions from databases. The discovering process of our system includes four main steps. Initially, users' queries are transformed into SQL form accepted by SQL server of underlying DBMS system. The second step is to construct training examples possibly embedded with users' specifications about the views of data from users' queries reults. The third step is to learn descriptions from the input training examples. Finally, the quality of the learned descriptions should be evaluated and clauses with lower quality are discarded. An example in a relational database has been used as the test database for the primitive KDD system. And results obtained based on users' intention give a successful implementation for our system.
URI: http://140.113.39.130/cdrfb3/record/nctu/#NT830392037
http://hdl.handle.net/11536/58959
Appears in Collections:Thesis