混合式項目推薦排序演算法於健康知識網站之應用

Translated title of the contribution: A Hybrid Item-based Recommendation Ranking Algorithm Applied on a Healthcare Website

胡 少杰, 劉 建財

Research output: Book/ReportCommissioned report

Abstract

From International Telecommunication Union (ITU) Internet population 2006 to 2009 observation report, Internet usage is increasing in countries of the world. The richness and diversity of online information resource has made the Internet to flourish. Researchers observed that people searching online health information has shown an exponential growth trend. The impact has influenced the health industry and becoming one of the considerable methods of obtaining health information.

The information overloading has decreased the efficacy and efficiency of online retrieval. To overcome these problems, search engine and hierarchical structured portal system has been emerged. In the search engine (like: Google), users could retrieve related information through keywords search. As to the directory service portal system (like: health99 or Yahoo), users will browse top to down inside the systems’ directories to obtain and learn information which interest them. Health information could bring benefits such as knowledge increment, self-care management capacity increment, clinical cost reduction, patient’s medical services satisfaction increment and doctor-patients relation strengthening. However, users may encounter difficulties while looking for health information on the Internet, such as (1) information overloading (2) disorganization (3) mass of information (related and unrelated) (4) imprecise or inappropriate search term (5) innaccessible or overly technical language (6) quality and reliability.

Users may encountered problems while searching online health information such as (1) unrefined query result (related and unrelated) (2) imprecise or inappropriate keywords decreasing search efficiency (3) lack of words feature (media resources) on the online documents may decreased probability being searched or augment ranking position from retrieving results. On the other hand, user could also find information through system like yahoo portal system, which organized information in a hierarchical structure. Sitemape can provide navigation information across website sections. However, (1) the internet is uncontrolled and unwatched, without notification, information may disappear, functions may changed or contents could be moven one place another from time to time (2) cognitive differences between users and website designers (3) Increase numerber of the hierarchical layers may also decrease the probability of items of being searched.

In our study, 12.53% of user have used search engine, among them 7.86% have used site search, which shows most of users do not use search tool. The conveniency of search engine has provided convenient and rapid way to retrieve information. However, users found their interest by confirming each retrieved result, this leads a lower precision rate compare to hierarchical structure portal system. On the other side, less retrieving result due to collection and classification difficulties, portal system has lower recall rate compare to the search engine. In order to efficiently and activately provide information, researchers started research on Information Filtering, also known for its recommendation system.

System analyzed and recommends information related to user’s interest from their visiting pattern. Furthermore, there might exist meaningless interest inside the visiting pattern and affect the recommendation result, therefore we need to remove the noise before analyzing related interest. We express the relation of related items by using correlation coefficient. However, item’s accessibility might affect the correlation coefficient, besides it didn’t concerned the relevance feedback magnitude. In our research, we have merged a new sorting method concerning the correlation coefficient, relevance feedback magnitude and item accessibility.

We assessed SORS with Health 99 Internet Information Service Log, operated by the Bureau of Health Promotion, Taiwan. The visiting patterns were divided by users into 80% training data and 20% testing data. The recommendation list is obtained by calculating related item to a certain item (Target) from the training data. The comparison between SORS and KNN (K Nearest Neighbor) was made. We discovered a better result performance while Top N is equal or smaller in SORS. Under different experiment parameter (Top N: size of recommendation list, LEN: time length used to recommendation analysis) we compare recall, precision and system performance between SORS and KNN, and discovered a better recall and precision of SORS under smaller or equal condition compare to KNN.
Original languageTraditional Chinese
Publisher臺北醫學大學牙周病專科
Number of pages85
Publication statusPublished - 2011

Fingerprint

Websites
Health
Search engines
Internet
Online searching
Information filtering
Feedback
Recommender systems
Information services
Cost reduction
Sorting
Telecommunication
Navigation
Computer systems
Testing
Industry
Experiments

Keywords

  • Collaborative filtering
  • Accessibility
  • Ranking
  • User Access Pattern
  • IIS log

Cite this

胡少杰, & 劉建財 (2011). 混合式項目推薦排序演算法於健康知識網站之應用. 臺北醫學大學牙周病專科.

混合式項目推薦排序演算法於健康知識網站之應用. / 胡少杰; 劉建財.

臺北醫學大學牙周病專科, 2011. 85 p.

Research output: Book/ReportCommissioned report

胡少杰 & 劉建財 2011, 混合式項目推薦排序演算法於健康知識網站之應用. 臺北醫學大學牙周病專科.
胡少杰, 劉建財. 混合式項目推薦排序演算法於健康知識網站之應用. 臺北醫學大學牙周病專科, 2011. 85 p.
胡少杰 ; 劉建財. / 混合式項目推薦排序演算法於健康知識網站之應用. 臺北醫學大學牙周病專科, 2011. 85 p.
@book{0270fe53944b4330b9dba49305a9b63f,
title = "混合式項目推薦排序演算法於健康知識網站之應用",
abstract = "International Telecommunication Union (ITU) 2006至2009年間對世界各國網際網路人口使用情形的調查,發現使用人數呈現逐年增長的趨勢。除此之外,網際網路上的資源也漸趨豐富與多樣化,其蓬勃發展亦影響了健康產業,有學者發現民眾在網路上搜尋健康相關資訊的數量持續增加且以指數型成長,可看出網際網路已成為民眾接收健康資訊一重要管道。 上網找尋資料的工作隨著資訊過載變得費時且低效率。為了解決問題,兩種普遍的網際網路存取工具,協助使用者提昇查尋結果的可用性:分別為搜尋引擎與提供目錄服務的入口網站系統。使用者從尋找過程中學習健康知識、提升自我健康管理能力、減低醫療成本的花費、提高民眾對醫療服務的滿意度以及醫病關係的改善。但消費者在網路上查找健康資訊時可能面臨,(1)資訊過載(2)紊亂(3)未精煉的資訊(包含相關與不相關)(4)專業化術語成為使用者下達關鍵詞搜尋時的障礙(5)專業的醫療知識與專有名詞增加民眾學習的難度(6)資訊的品質與可信度。 另外,使用者在使用搜尋工具搜尋健康資訊的過程中可能面臨問題(1)過多未精煉的資訊(包含相關與不相關)(2)健康領域專業化術語,造成使用者下達關鍵詞的障礙,為有效的利用搜尋引擎,使用者須明確知道搜尋資料的方向及關鍵字(3)缺乏文字特徵屬性的資料可能搜尋不到或排名順位後面而不易被使用者找到。部分健康宣導性媒體資源 (如:圖檔轉存的pdf),在缺乏文字特徵屬性的情況下,可能增加被搜尋到的困難度。 在目錄服務的入口網站,使用者在網站中由上往下在以階層式分類的網站結構中尋找需要的資訊,雖有網站導覽的協助但階層式的分類、網站結構與異動性等因素降低階層中頁面的可及性(Accessibility)以及增加使用者搜尋上的困難,其因素包含(1)資源異動、網站或網頁消失、網頁功能改變或內容隨著時間被移置到網站中其他位置(2)使用者與網站設計人員對網站結構認知的差異同樣也增加搜尋上的困難(3)階層的增加降低底層網頁被搜尋到的可能性。 研究中我們發現健康九九使用者中有約12.53{\%}用過搜尋引擎,其中有7.86{\%}用過站內搜尋,顯示大部分的使用者未用過搜尋工具。雖然搜尋引擎提供便利迅速的關鍵字搜尋功能,但是使用者為了找到真正想要的資訊必須一一確認所有找到的網頁,導致其精確率(Precision)與目錄服務的入口網站系統相比來得低,而入口網站所收集到的網頁相對來說較少,因此相關的結果會較搜尋引擎少便造成召回率(Recall)較搜尋引擎來得低。為了更有效益且主動的提供資訊與知識,遂有學者提出資訊過濾(Information Filtering),其中代表作就是推薦系統,期望能經由系統分析使用者閱覽紀錄獲取其偏好或興趣,從使用者的興趣中協助找到相關的資源文件,縮短過濾資訊的時間並改善搜尋引擎精確率低的問題。 使用者閱覽紀錄中可能因無意義的回饋評分影響了推薦結果,因此分析前需剔除回饋評分雜訊,再從過濾掉的資訊中找出文章的相關性。可是相關性的強弱會受到網頁可及性(Accessibility)影響,除此之外相關性僅能知道頁面的回饋評分有相似的趨勢,無法得知回饋評分的高低。在本研究方法中,我們考慮相關係數、回饋評分的高低與頁面的可及性,對推薦清單中的頁面重新排序─提出新方法SORS。 為了驗證SORS的效果,使用衛生署國民健康局健康九九網站的網站日誌(IIS log),進行方法的評估。從歷史閱覽資料中根據使用者4比1的比率分成訓練組(Training Data)與測試組(Testing Data),並從訓練組中挑選一篇使用者曾經看過的文章(Target),並訓練組資料中找出與Target相關之其他文章(Top N,N為相關文章數)作為推薦用,從得到的推薦結果利用測試組進行評估。實驗結果根據不同的參數Top N(推薦文章數)、LEN(推薦分析資料的時間區間長度)進行SORS與KNN的Recall、Precision以及系統效能比較。並發現SORS的首N項小於KNN時其Recall與Precision依然有較好的效果。",
keywords = "協同過濾演算法, 可及性, 排序, 使用者訪問行為, 網路日誌, Collaborative filtering, Accessibility, Ranking, User Access Pattern, IIS log",
author = "少杰 胡 and 建財 劉",
year = "2011",
language = "繁體中文",
publisher = "臺北醫學大學牙周病專科",

}

TY - BOOK

T1 - 混合式項目推薦排序演算法於健康知識網站之應用

AU - 胡, 少杰

AU - 劉, 建財

PY - 2011

Y1 - 2011

N2 - International Telecommunication Union (ITU) 2006至2009年間對世界各國網際網路人口使用情形的調查,發現使用人數呈現逐年增長的趨勢。除此之外,網際網路上的資源也漸趨豐富與多樣化,其蓬勃發展亦影響了健康產業,有學者發現民眾在網路上搜尋健康相關資訊的數量持續增加且以指數型成長,可看出網際網路已成為民眾接收健康資訊一重要管道。 上網找尋資料的工作隨著資訊過載變得費時且低效率。為了解決問題,兩種普遍的網際網路存取工具,協助使用者提昇查尋結果的可用性:分別為搜尋引擎與提供目錄服務的入口網站系統。使用者從尋找過程中學習健康知識、提升自我健康管理能力、減低醫療成本的花費、提高民眾對醫療服務的滿意度以及醫病關係的改善。但消費者在網路上查找健康資訊時可能面臨,(1)資訊過載(2)紊亂(3)未精煉的資訊(包含相關與不相關)(4)專業化術語成為使用者下達關鍵詞搜尋時的障礙(5)專業的醫療知識與專有名詞增加民眾學習的難度(6)資訊的品質與可信度。 另外,使用者在使用搜尋工具搜尋健康資訊的過程中可能面臨問題(1)過多未精煉的資訊(包含相關與不相關)(2)健康領域專業化術語,造成使用者下達關鍵詞的障礙,為有效的利用搜尋引擎,使用者須明確知道搜尋資料的方向及關鍵字(3)缺乏文字特徵屬性的資料可能搜尋不到或排名順位後面而不易被使用者找到。部分健康宣導性媒體資源 (如:圖檔轉存的pdf),在缺乏文字特徵屬性的情況下,可能增加被搜尋到的困難度。 在目錄服務的入口網站,使用者在網站中由上往下在以階層式分類的網站結構中尋找需要的資訊,雖有網站導覽的協助但階層式的分類、網站結構與異動性等因素降低階層中頁面的可及性(Accessibility)以及增加使用者搜尋上的困難,其因素包含(1)資源異動、網站或網頁消失、網頁功能改變或內容隨著時間被移置到網站中其他位置(2)使用者與網站設計人員對網站結構認知的差異同樣也增加搜尋上的困難(3)階層的增加降低底層網頁被搜尋到的可能性。 研究中我們發現健康九九使用者中有約12.53%用過搜尋引擎,其中有7.86%用過站內搜尋,顯示大部分的使用者未用過搜尋工具。雖然搜尋引擎提供便利迅速的關鍵字搜尋功能,但是使用者為了找到真正想要的資訊必須一一確認所有找到的網頁,導致其精確率(Precision)與目錄服務的入口網站系統相比來得低,而入口網站所收集到的網頁相對來說較少,因此相關的結果會較搜尋引擎少便造成召回率(Recall)較搜尋引擎來得低。為了更有效益且主動的提供資訊與知識,遂有學者提出資訊過濾(Information Filtering),其中代表作就是推薦系統,期望能經由系統分析使用者閱覽紀錄獲取其偏好或興趣,從使用者的興趣中協助找到相關的資源文件,縮短過濾資訊的時間並改善搜尋引擎精確率低的問題。 使用者閱覽紀錄中可能因無意義的回饋評分影響了推薦結果,因此分析前需剔除回饋評分雜訊,再從過濾掉的資訊中找出文章的相關性。可是相關性的強弱會受到網頁可及性(Accessibility)影響,除此之外相關性僅能知道頁面的回饋評分有相似的趨勢,無法得知回饋評分的高低。在本研究方法中,我們考慮相關係數、回饋評分的高低與頁面的可及性,對推薦清單中的頁面重新排序─提出新方法SORS。 為了驗證SORS的效果,使用衛生署國民健康局健康九九網站的網站日誌(IIS log),進行方法的評估。從歷史閱覽資料中根據使用者4比1的比率分成訓練組(Training Data)與測試組(Testing Data),並從訓練組中挑選一篇使用者曾經看過的文章(Target),並訓練組資料中找出與Target相關之其他文章(Top N,N為相關文章數)作為推薦用,從得到的推薦結果利用測試組進行評估。實驗結果根據不同的參數Top N(推薦文章數)、LEN(推薦分析資料的時間區間長度)進行SORS與KNN的Recall、Precision以及系統效能比較。並發現SORS的首N項小於KNN時其Recall與Precision依然有較好的效果。

AB - International Telecommunication Union (ITU) 2006至2009年間對世界各國網際網路人口使用情形的調查,發現使用人數呈現逐年增長的趨勢。除此之外,網際網路上的資源也漸趨豐富與多樣化,其蓬勃發展亦影響了健康產業,有學者發現民眾在網路上搜尋健康相關資訊的數量持續增加且以指數型成長,可看出網際網路已成為民眾接收健康資訊一重要管道。 上網找尋資料的工作隨著資訊過載變得費時且低效率。為了解決問題,兩種普遍的網際網路存取工具,協助使用者提昇查尋結果的可用性:分別為搜尋引擎與提供目錄服務的入口網站系統。使用者從尋找過程中學習健康知識、提升自我健康管理能力、減低醫療成本的花費、提高民眾對醫療服務的滿意度以及醫病關係的改善。但消費者在網路上查找健康資訊時可能面臨,(1)資訊過載(2)紊亂(3)未精煉的資訊(包含相關與不相關)(4)專業化術語成為使用者下達關鍵詞搜尋時的障礙(5)專業的醫療知識與專有名詞增加民眾學習的難度(6)資訊的品質與可信度。 另外,使用者在使用搜尋工具搜尋健康資訊的過程中可能面臨問題(1)過多未精煉的資訊(包含相關與不相關)(2)健康領域專業化術語,造成使用者下達關鍵詞的障礙,為有效的利用搜尋引擎,使用者須明確知道搜尋資料的方向及關鍵字(3)缺乏文字特徵屬性的資料可能搜尋不到或排名順位後面而不易被使用者找到。部分健康宣導性媒體資源 (如:圖檔轉存的pdf),在缺乏文字特徵屬性的情況下,可能增加被搜尋到的困難度。 在目錄服務的入口網站,使用者在網站中由上往下在以階層式分類的網站結構中尋找需要的資訊,雖有網站導覽的協助但階層式的分類、網站結構與異動性等因素降低階層中頁面的可及性(Accessibility)以及增加使用者搜尋上的困難,其因素包含(1)資源異動、網站或網頁消失、網頁功能改變或內容隨著時間被移置到網站中其他位置(2)使用者與網站設計人員對網站結構認知的差異同樣也增加搜尋上的困難(3)階層的增加降低底層網頁被搜尋到的可能性。 研究中我們發現健康九九使用者中有約12.53%用過搜尋引擎,其中有7.86%用過站內搜尋,顯示大部分的使用者未用過搜尋工具。雖然搜尋引擎提供便利迅速的關鍵字搜尋功能,但是使用者為了找到真正想要的資訊必須一一確認所有找到的網頁,導致其精確率(Precision)與目錄服務的入口網站系統相比來得低,而入口網站所收集到的網頁相對來說較少,因此相關的結果會較搜尋引擎少便造成召回率(Recall)較搜尋引擎來得低。為了更有效益且主動的提供資訊與知識,遂有學者提出資訊過濾(Information Filtering),其中代表作就是推薦系統,期望能經由系統分析使用者閱覽紀錄獲取其偏好或興趣,從使用者的興趣中協助找到相關的資源文件,縮短過濾資訊的時間並改善搜尋引擎精確率低的問題。 使用者閱覽紀錄中可能因無意義的回饋評分影響了推薦結果,因此分析前需剔除回饋評分雜訊,再從過濾掉的資訊中找出文章的相關性。可是相關性的強弱會受到網頁可及性(Accessibility)影響,除此之外相關性僅能知道頁面的回饋評分有相似的趨勢,無法得知回饋評分的高低。在本研究方法中,我們考慮相關係數、回饋評分的高低與頁面的可及性,對推薦清單中的頁面重新排序─提出新方法SORS。 為了驗證SORS的效果,使用衛生署國民健康局健康九九網站的網站日誌(IIS log),進行方法的評估。從歷史閱覽資料中根據使用者4比1的比率分成訓練組(Training Data)與測試組(Testing Data),並從訓練組中挑選一篇使用者曾經看過的文章(Target),並訓練組資料中找出與Target相關之其他文章(Top N,N為相關文章數)作為推薦用,從得到的推薦結果利用測試組進行評估。實驗結果根據不同的參數Top N(推薦文章數)、LEN(推薦分析資料的時間區間長度)進行SORS與KNN的Recall、Precision以及系統效能比較。並發現SORS的首N項小於KNN時其Recall與Precision依然有較好的效果。

KW - 協同過濾演算法

KW - 可及性

KW - 排序

KW - 使用者訪問行為

KW - 網路日誌

KW - Collaborative filtering

KW - Accessibility

KW - Ranking

KW - User Access Pattern

KW - IIS log

M3 - 委託報告

BT - 混合式項目推薦排序演算法於健康知識網站之應用

PB - 臺北醫學大學牙周病專科

ER -