後疫涉日 - 防疫辛生活

2019 年底新冠肺炎首度被發現,在不到半年的時間內造成全球大流行,當時的台灣靠著以往對於 SARS 的防疫經驗驚險地守住台灣的疫情,原本與疫情較無相關的台灣,突然間也在 2021 年時淪陷了,2021 年 5 月 15 單日本土暴增180 例,這讓當時全台灣都陷入了警戒,台灣的疾病管制署當時做出了不封城而採用分級警戒制度的方式,全台灣迅速進入三級警戒,直到同年 7 月才逐漸放寬降至二級,並且在這之後提出了防疫新生活的概念,倡導在適度的管制措施下,仍然能有效地控制疫情。
在這時間的我們,也漸漸養成出門配戴口罩和酒精、登記實名制等習慣經過了短短幾個月,台灣成功抑止了疫情繼續擴大的風險。渡過這段期間的大家,不論是在生活上還是心理上都有著一定比例的改變,這也是我們想去探討此主題的原因,因此我們想藉由一系列的問答來探討此主題,去了解其他人是否跟我們也有一樣的想法。

組員:賴秉淵, 詹芳伃, 謝佳諺, 林詩璇, 林莉芸
業師:姜乃文, 黃勝琮

臺灣旅遊指南

旅行是一種能跳脫原本生活框架的突破,透過旅行我們不但能接觸不同文化的人事物,過程中也讓自己有所成長。在規劃旅行的時候,我們常需要考量住哪裡?吃甚麼?去哪裡?來決定這次旅途的行程,利用網路尋找會因要分開搜尋導致前期準備須花較多時間,若是安排不當這次的旅遊就不會感覺到放鬆,這樣豈不是違背了旅行的意義,由於難得的一趟旅遊一定要尋找滿足自己身心以及環境優美的地方,且臺灣觀光人數有逐年成長的趨勢,觀光產業一直是臺灣的重要經濟來源,因此,我們將作出一套可以推薦住宿、餐廳、景點以及交通的系統,在滿足使用者的旅遊需求下,推薦最適合的行程。

組員:李憶嫙, 蔡婷芳, 黃永駖, 黃薏凌
業師:楊富傑, 何怡靜

視覺化工具網站

大數據時代」是目前最為流行的詞語之一,如今我們能夠從資料中活獲得許多資訊,相較於整理不同的圖表,抑或是透過不同的檢定方法,從中了解資料所傳達出的訊息,視覺化則較易於理解數據並且具有優秀的動態效果和強大的交互體驗使人們更願意吸收理解資料。
資料視覺化(數據視覺化)就是以視覺化圖表的方式呈現結構化或非結構化資料,從而將隱藏在資料中的資訊直接呈現給人們。它不僅僅是使用資料視覺化工具將資料轉化為圖表。相反,它是從資料的角度看世界的。換句話說,資料視覺化的物件是資料,而我們真正想要的是將資料作為工具,將視覺化作為探索世界的手段。

組員:林書羽, 劉宸宇
業師:唐子鈞

新手投資股票攻略網站

由於現在投資理財的潮流下,投資股票商品已經不再是商業人士和專業人員才能從事的活動,這已經是一件全民參與的活動。因此我們三個學生討論討論我們的主題做與股票相關,趁這個機會也可以練習怎麼架設網站、將資料視覺化的呈現出來。剛好網路上面也有很多的股票網站,所以就想要自己也做做看。

組員:陳維宇, 鄭景鴻, 宋睿騰
業師:莊浩偉, 王凱歆

韭菜史塔克

投資理財一直是大眾所關注的焦點。近年,比起活期存款、定期存款等銀行存款,人們希望能夠透過投資,獲得較高的利潤,進而累積較多的財富,因此往往投身於股票、基金、期末等市場。在眾多衍生性金融商品下,股票市場占了很大一席之地,高報酬往往伴隨著高風險,因此在股票市場中,投資人如何藉由過去股價的起伏,盡可能預測未來股價趨勢,建構出風險最小、獲利最大的理想投資方式,減少投資的損失程度,也是眾投資人所需要具備的能力之一。

組員:周柏寬, 楊廷紳, 張瀞文, 謝宜芳, 廖怡珺, 徐薇喬, 蔡若婕
業師:吳汶璇, 林坤宏

疫情對台美英的影響

疫情下,交通、餐飲、旅遊等方面,雖和我們的生活密不可分,但許多民眾因為政府政策或是害怕被感染,皆減少了這些需求。並有了不同以往的消費模式。亦有資料顯示,將近 66% 民眾的收入受到疫情影響,因此引起我們對在疫情期間人們收入受到影響生活習慣改變時,台灣的經濟狀況會有如何影響。
這場呼吸道病毒所引起的災難是從中國開始爆發快速擴散,現已蔓延全球,每個國家都受到了一定程度的打擊,這使我們也好奇其他國家如英國或美國,同在疫情下,他們的經濟狀況是否會跟台灣有一樣的影響呢?

組員:林威漢, 李琍絹, 黃鈺婷, 黃郁文
業師:詹欣諭, 邱思綺

巡查路線規劃與建議

本次專案資料是由臺北市政府工務局大地工程處所提供。臺北市政府工務局大地工程處(簡稱大地處),是臺北市政府負責水土保持法、山坡地保育利用條例、森林法、地質法的主政機關。大地處藉由派巡山員去巡視整個台北市的山區,達到維護山坡地的目的。因此,巡查員最主要的工作就是勘查檢舉案件、違規案件,並將每日巡山的所見所聞記錄下來。我們希望透過這些資料,藉由路徑規畫提高巡查效率,並從中探討巡查員的習慣路線,藉此提供給大地處作為參考。

組員:楊允喬, 謝佩穎, 陳韋豫, 李品嫻
業師:詹欣諭, 林敬凱, 顏吟真

銀行業客群經營與精準行銷

在數位化時代,傳統銀行除了面臨轉型問題外,純網銀跟電子支付的崛起也對傳統銀行造成威脅,各大金融機構競爭激烈。在此,我們將推出精準行銷以解決競爭激烈問題,針對對的人做正確的行銷。我們透過分群分析將客戶分成不同類型的客群並找出每個客群的特徵與行為,最後結合機率預測模型,預測顧客購買產品的機率,從中篩選出購買機率高的客戶建立行銷名單,使銀行業務員能夠根據名單內的客戶進行行銷,並且針對不同類型的客戶分別使用不同的行銷手法以達成精準行銷之目的,也能在有限的行銷預算下創造最大的利潤。

組員:詹舒涵, 洪嘉彣, 呂亮葳
業師:林靖淳, 陸栢希

A + B Designs Web Application for Phase I Cancer Clinical Trials

透過R語言的Shiny套件架設出一個針對癌症第一期臨床試驗A + B Designs的互動式網頁,讓使用者自行輸入各個參數值:包含實驗設計的人數、劑量層級數以及每劑量下DLT的發生機率,去看出各別設計下相對應的特性與結果。以幫助設計實驗之研究人員與醫療相關人員等更簡便地透過網頁的拖拉點選找到他們所需的數值,提供相關資源與資金分配之參考。並且藉由網頁中淺顯易懂的統計圖表,使對於無臨床試驗相關背景知識的一般使用者,亦能夠進一步認識與理解A + B Designs。

組員:李姿穎, 江品萱, 陳勐, 張自如, 蔡茜婷, 張育瑋
業師:林坤宏, 吳汶璇

基於數據分析競賽的機器學習之旅

隨著科技越來越發達,機器學習的技術也越來越進步,故在大學期間希望能夠增進自己機器學習資料分析的能力,業師們因而準備了一項專案計畫,就是在kaggle上,上傳一個房地產實價登陸的房價預測, 本次研究分析了實價登錄系統的房價資料使用lightgbm 以及 xgboost 想從中探討實價登錄裡變數的影響,除此之外也想看看外部資料對房價有沒有重大影響進行分析。

組員:吳竣瑋, 林冠廷, 林准羽, 夏唯中, 許純宜, 薛淯云, 刁靖童
業師:廖瑋婕, 沈彥廷

新聞爬蟲&視覺化分析

在這個數位的時代,程式技能日漸受到重視,爬蟲技能就是獲取資訊最快的方式之一。我們將爬取下來的網路資訊,有邏輯性的整理,嘗試尋找這些利用爬蟲隨手可得的資料背後的價值所在,並利用新聞文章視覺化的方式呈現。其次,此次設定的專案主軸以及搜尋主題選擇的是,金融股票相關的新聞資訊來進行資料收集,選擇金融股票有幾個原因,第一資訊量較廣討論度較高,第二資訊來源多元可以找到不同觀點,能夠在不同的網站尋找相同議題字詞的聯集與交集,第三具有商業價值,本次專案除了技術性上的訓練及操作外,還想要做出一個能夠實際應用到商業實務上,嘗試建立一個商業模式的雛形。

組員:劉育誠, 張彤如, 楊竣安, 黃子恆, 許瑋庭
業師:吳宜庭

運用財經新聞關鍵字詞預測台股漲跌之研究

現在財富自由這個詞是很多人努力工作的最終目標,但憑藉正職收入可能要累積較長的時間才能夠達成,因此研究投資方式是縮短自己和財富自由距離的途徑之一,而股票又是最常見的投資方式,網路上資料很多,新聞也很常播報最近的股市狀況,例如前一陣子的台積電股票大漲的新聞隨處可見,只要股票能預測準確,就能為自己帶來額外的收入,但如果不準確,有可能會損失自己原本辛苦賺來的錢,所以我們想透過python爬取文章、建立文字頻率矩陣,放入機器學習的模型中,探討財經新聞的文章對於股價漲跌的關係。

組員:張利秀, 王香筑, 曹品幀, 呂毓庭
業師:賴韻如

動漫推薦系統

隨著網路、大數據的蓬勃發展,推薦系統成為了近年非常流行的商業分析工具,其可以應用在各行各業且能針對特定用戶提供資訊的特性也帶來無限的商機。而動漫市場在 21 世紀也開始蓬勃發展,隨著近年來智慧型手機以及串流影音平台的崛起,每年動漫的產值更是翻倍成長,帶起了影視產業中的一股全新風潮。因此在這次的專題計畫中,我們採用 Kaggle 所提供的動漫數據資料集針對訊息較多的用戶及動漫做 KNN 延伸推薦模型、Funk SVD 以及 FactorizationMachine 三種不同推薦系統演算法的探討,並且完成模型建置對用戶提供準確的動漫推薦。

組員:李孟哲, 廖珮媛, 賴昱璇
業師:劉珉淳, 黃慶昀

臺北市交通事故資料網頁視覺化呈現

自交通工具發明以來,人們的日常生活便與交通二字密不可分,然而,隨著交通工具的多元化,伴隨而來的種種交通事故也深深影響著我們的日常生活。以台灣台北市交通事故資料為出發點,再結合Google API及網路爬蟲的技巧,我們建立出一個視覺化互動式網站,藉由簡單的拖拉點選步驟,讓使用者能透過基本的統計圖表即時了解過去台北市交通事故的狀況。

組員:徐忞, 黃翊嘉, 王子玲, 王詠瑜, 鄭淑嬿, 留筠雅
業師:唐子鈞, 林韋君

電商平台調查

由於消費者在疫情爆發初期開始大量購買食品飲料、居家用品和個人護理商品等民生必需品,使得這類商品的銷售業績成長幅度達到前所未有的規模。非民生必需品則因為消費者選擇延後或暫緩購買,而面臨嚴峻挑戰。隨著消費者逐漸適應現實而發展出新的購物模式,品牌和零售商若想要成功,就必須深入瞭解消費者的行為和期望。

組員:廖怡珺, 張菀麟, 黃千綾, 蔡宜寧
業師:何怡靜

空氣品質網站優化-以雙北側站為例

隨著科技發展的進步,我們的生活越來越便利,但也帶來令人擔憂的問題,其中空氣汙染更是近年備受關注的議題,對人們的健康有許多影響。這幾年人們開始注重起空氣品質,不管是PM2.5(懸浮微粒)或是AQI(空氣品質指標),特別家中有對空氣品質敏感的小朋友或長輩,隨時注意屋外的空氣品質更是刻不容緩!目前主要供民眾查詢空氣品質狀況管道為行政院環保署空氣品質監測網,網站內提供民眾查詢今日即時的空氣品質狀況,也能查詢過去幾年來的趨勢。但基於使用者的方便性,網站內所提供的資訊不足以讓使用者得知是否適合出門或運動,因此我們利用tableau儀表板創立雙北空氣品質監測網頁面,資料採用2020年空氣品質小時資料為例,除了保留原始網站的資訊,並結合工廠資訊、景點資訊、天氣狀況以及運動建議,讓使用者在查詢當日AQI狀況時,也能搭配測站附近工廠分布情形,並且能夠查找想去的景點,還能了解當天的天氣狀況,以及針對AQI等級所建議搭配的運動,使得使用者不須瀏覽多個網頁,能在我們設計的網頁內一目了然!

組員:丘富瑜, 張雅茹, 陳奕宏, 蘇映漩
業師:王凱歆, 莊浩偉

MY COVID-19 DASHBOARD

來自台灣衛生福利部疾病管制署(TCDC)所公布的有關台灣每一例個案的資訊、依據歐洲疾病預防和控制中心(ECDC)所收集的資料,以及kaggle上提供的詳細彙整資料,充滿著時序性、地理等資訊,考驗著我們如何處理資料。隨著疫情的持續蔓延,而我們也希望能夠透過這份數據,去運用自身統計、數據科學的相關知識及技巧,建立儀表板、視覺化呈現,幫助使用者們能快速的了解全球狀況,為社會盡一份心力。

組員:邱莉雯, 陳冠中
業師:Kristen, 劉智欣, 林敬凱

信用卡盜刷偵測

現今是一個網路世代,有將近90%的人們會使用網路,因為網絡如此的發達,也有許多的弊端產生,諸如仿冒、謾罵等等。其中本研究是針對資料竊取中,與我們最息息相關的信用卡,信用卡盜刷在銀行的方面大都沒有方法可以防範,只能透過消費者向銀行提出申訴,才得以進一步確認本筆交易是否為本人之消費行為。因此,本研究室希望能針對銀行方面進行改善,使銀行主動向疑似被盜刷信用卡之用戶聯繫。

組員:楊承翰, 陳彥谷, 許瑞珊, 楊絜甯
業師:王斯霈, 胡家豪

地方行銷策略是否影響大眾去台南的旅遊動機

近年來又吹起了一股影視熱潮,窩在家看偶像劇配零食已經成為現代人最幸福的休閒活動之一。不管是生活影片分享、電視戲劇或者是電視影集等等,觀看者已經不拘泥於影片主角,有時更著重在主角使用的商品、拍攝場景等等。我們以近期推出的熱門偶像劇「想見你」為研究出發點,想了解欲旅行者會因為那些外在的因素而影響旅遊意願,再根據統計分析結果對相關行業及政府政策提出適當的旅遊建議。

組員:温芝婷, 林佳伶, 莊世欣, 謝亞璇, 王俐婷
業師:黃勝琮, 姜乃文

紅酒品質迴歸分析

出社會面對應酬、工作,勢必一定會碰到酒類相關飲品,而懂得分辨和欣賞高品質的紅酒實在是一門高深的學問,無論是從成分、選酒、儲存的溫度與環境,各種細節都不能馬虎,因為這些因素都影響著紅酒的品質和味道。而至今已經有許多科學實驗證實,適量的飲用紅酒比完全不喝來得更健康。因為紅酒中的抗氧化成分可使罹患心血管疾病、第二型糖尿病及死亡的風險降低。但是如果超過了適當的飲酒量,還是對身體有相當大的風險!叮囑大家,適量飲酒是非常重要的。

組員:鄭榆均
業師:魏子洋, 葉丞峻

金融商品精準行銷客群分析

在今年年初新冠肺炎爆發後,客戶出門的意願降低,對於線上服務需求提高,而要使自己在競爭激烈的數位銀行市場脫穎而出,我們透過集群分析來了解客戶,並針對客戶的需求給予精確的商品進而達到精準行銷。此次專案我們藉由客群分析,在大約100萬客戶中選出2群共13萬行為高度數位化的客戶做精準行銷,相比對100萬人行銷,精準行銷可以減少對約87萬人行銷,也就是減少了87%的行銷成本,在有限的行銷成本下,得到最大的效益。

組員:張彤如, 賴昱璇, 江艾玲, 藍語庭
業師:林靖淳, 陸栢希

肺癌和 COPD 患者生命末期的健保醫療費用和醫療處置情況

在最新的調查中癌症是全國十大死因的第一位,而肺癌亦在其中;而慢性阻塞性肺病(COPD)則在十大死因中排名第七。因為兩者的症狀皆發生在肺部,所以常常造成民眾的混淆。而又因COPD屬於慢性疾病,症狀並不明顯,當民眾察覺身體不適時,可能已錯過診療的黃金時期,而醫療的支出也會因為治療藥物變多而提高。因此,在此研究中,我們以罹患肺癌和 COPD 的患者作為研究對象,利用健保 20 萬人資料檔(民國86年-民國102年)的資料,透過各個檔案互相串檔,找出生命末期的肺癌患者與COPD患者的基本特徵、醫療費用及醫療處置情況,繼以T檢定、卡方同質性檢定、單變量與多變量的邏輯斯迴歸進行分析。希望透過這樣的回溯性研究能瞭解兩種患者在死亡前六個月的醫療費用、兩種患者在死亡前六個月的醫療處置情況且藉由本研究提出相關的建議與方法。

組員:蔡函螢, 黃思綺, 顏韻芠, 張育榕, 林恒君, 陳芝立
業師:蔡靜雯

降壓藥劑對肺癌之影響

癌症死亡是我國十大死因首位,高血壓位居第八,其中肺癌更是當中死亡率最高的病症。依據衛生署最新統計,每年約有六千個肺癌死亡病例,但其致病原因尚未十分瞭解,一般認為空氣污染和吸菸是促使肺癌的重要因素。人口老化日趨嚴重,近年發現服用相關降壓藥劑也可能會導致肺癌,藉此想進一步研究藥劑對於罹患肺癌的影響及風險,將針對「血管收縮素受體阻斷劑 (ARB)」與「血管收縮素轉化酵素抑制劑(ACEI)」兩種藥劑進行探討。

組員:林欣誼, 林佳霓, 熊子嵐, 俞詩琇
業師:章峻福

人格特質分析與漫畫種類相關性

漫畫是一種不分年齡大家都會閱讀的書籍,隨著時代的演變,漫畫的種類也更加多元,因此,我們透過五大人格特質來探討喜好的漫畫種類和人格特質或性別是否有特殊的關聯性,並利用Google表單的方式蒐集問卷。然而,在利用Google表單蒐集問卷後,受測者卻無法立即得知他們的測驗結果,因此我們利用SHINY,將測驗結果建立成一個互動式網頁,並在受測者填完問卷後給予網址,解決Google表單無法即時回饋的問題。

觀看測驗結果的e-mail可輸入測試信箱:tsdcteamh@gmail.com檢視測驗結果

組員:沈浩丞, 常芝芸, 謝佩穎, 許瑞之, 黃悅熏, 彭捷歆
業師:林坤宏

預測流感確診風險

流感是一種急性呼吸道傳染病,具有爆發流行快速、散播範圍廣泛以及併發症嚴重的特性,而台灣是個人口密度高的國家,所以在人與人互動的過程中,就有可能把傳染疾病帶給給他人,因此我們希望用過往的資料,去預測未來流感可能發生的風險,即可有效的掌握流行趨勢,並採取適當防治措施,隨後製作一個儀表板,讓使用者可以掌握未來流感的動向。

組員:蔡君翎, 張雅雯, 何佳玟, 賴堉溱
業師:廖瑋婕, 沈彥廷

我的第一個Kaggle競賽

Kaggle是世界上最大的資料探勘和機器學習的競賽平台和社群,裡面有相當多資源可供使用及參考。Kaggle整合各式各樣的資料數據集,提供了練習以及與同領域高手交流切磋的方便好平台。理論上,Kaggle歡迎任何資料科學的愛好者,但實際上,要想真的參與其中,還是有一定門檻的。
本次選用Kaggle上桑坦德銀行所提供的資料專案,此專案目的為探討顧客過去的行為和類似客戶的行為,預測現有客戶下個月將使用哪些產品。我們希望究競賽高手的實作技巧,了解Kaggle final code的改進過程,同時從中累積自身經驗。
 

組員:任可欣, 李涵璵, 陳睿杰
業師:Kristen, 劉智欣

運用 SHINY 探討全球自殺率

視覺化作為探索資料特徵與內涵的重要的工具之一,在探索過程中建立眾多圖形,可以幫助我們掌握對資料特徵。很多時候面對不具備資料科學的背景知識,或沒有時間深入研究資料的聽眾或讀者,為了幫助他們快速理解專案,視覺化更是溝通資料時最好的橋樑,它能讓專案情節能夠簡單易懂,多數的溝通中文字比表格稍差、表格又略不如靜態圖形、靜態圖形略遜於互動式圖表。
Shiny 是一個 R 語言套件,透過 Shiny 能夠直接從 R 撰寫網頁的前後端,並提供圖表接口,直接將 R 產生的圖表呈現在網頁上,並建置互動式的網頁應用程式。我們將運用 SHINY 探討全球自殺率,建立一個互動式的網頁。

組員:陳翰陞, 簡宏濂
業師:王斯霈, 吳泳慶

台灣綠蠵龜孵育行為研究

綠蠵龜是臺灣和附近離島地區主要上岸產卵的海龜。全世界僅剩下約二十萬頭產卵母龜,在世界自然保護聯盟中列為瀕危物種,也是台灣保育類動物之一。在台灣附近出沒的海龜目前僅有綠蠵龜和赤蠵龜有過上岸產卵的紀錄,過去產卵地遍及台灣的東、南部沿海及離島的沙灘上。然而,因棲地的破壞、環境汙染及過度的捕殺,使得母龜的數量驟減。到了現今,僅剩澎湖、小琉球及蘭嶼有海龜上岸產卵。產卵的海龜種類也只剩下綠蠵龜一種。
綠蠵龜需要在自然條件與環境皆適當的條件下方能上岸產卵,綜合羅吉斯迴歸分析等方法,孵化期平均氣溫、累積降雨量以及卵窩深度皆與卵的孵化成功率有顯著相關。若在未來能對於卵窩深度進行更深入的研究,或許可以更精準的預估實際孵化率。希望未來政府在制定保育政策或是民間復育綠蠵龜生態時,能夠參考氣溫、降雨量、與卵窩深度等變項,便能夠有效提高海龜孵化。幫助海龜順利完成生育過程,使其孵育環境更為適宜。

組員:楊允喬, 姚信宇, 廖于甄, 邱莉雯, 吳友文
業師:黃勝琮, 姜乃文

英文學習方法

身為華語系國家,在我們第一次接觸英文時,大多是在學校內。隨著時間的推移,英語在工作與生活中日漸重要,甚至有越來越多的職缺,將英語能力設為入行門檻或主要的學習評分標的。在這樣浪潮下的我們,面對英文這項非母語的語言,該如何在最短的時間內達到最佳的學習效果,進而順利達成自己的學習目標呢?
本研究針對學習時長、學習動機與態度、學習方法與形式、學習成績等部分,設計22題網路問卷。在292位有效問卷的受訪者回填結果中,運用卡方檢定與單因子變異數分析等統計方式,針對學習成績的結果進行分析。我們了解到隨著受訪者的經濟狀況,對應到有效的學習方法與形式會有不同的效果。但是在研究的結果上也顯示,學習的積極程度才是最主要影響的變因。換句話說,驅動一個人快速有效地掌握英文的方式,首先就是要具備積極的態度。

組員:張雅茹, 邱奕慶, 蔡念庭, 陳維佐, 徐培維
業師:魏子洋, 葉丞峻

DM健保資料庫之各疾病史與癌症因果關係實作

根據衛福部之台灣十大死因調查結果當中顯示,癌症不但位居第一,且已經蟬聯榜首三十多年。而其中糖尿病也高居榜中第五,這也引起了流行病學家的好奇並進一步去調查和研究兩疾病之間是否具有關係。近年來透過研究結果發現,糖尿病確實與許多癌症有明顯地關聯性。流行病學家提出,糖尿病患者罹患癌症或死於癌症的風險比非糖尿病患者高出了1.28倍。糖尿病患者之人數在台灣人口當中佔了相當大的數量,而患者多半會有內分泌系統異常的問題,也因此容易影響到病患出現其他疾病發生的情況。若能夠找出各疾病之間的相互關係,便能更容易達到有效的疾病預防或是國家對於健保給付的支出能夠降低,而提升國家醫療品質及保障。本研究將會透過疾病層面、公衛層面兩種不同的角度切入,探討不同的因素下,找出各疾病與癌症是否具有關聯性後,將這些具有相關性之疾病視為干擾因子,進一步對其加以調控,再針對社經地位狀況,進行分析及探討與癌症發生的關係。

組員:梁君婷, 蔡茜婷, 林正偉
業師:章峻福

Apply Data Based on CDISC Time to Event Guidance to Kaplan Meier Method with R and SAS

CDISC (Clinical Data Interchange Standard Consortium,臨床數據交換標準協會) 為一個全球性的非營利組織,成立於 1997 年。早期目標是設計一套針對四大試驗流程所制定的通用標準,通稱『CDISC 標準』。希望能藉此促進國際間的臨床資訊交流、增進跨國試驗的執行效率同時也可以提升資料品質、降低資料整合的困難度。目前 CDISC 標準已成為業界標準,且受到世界各地國家官方單位所使用。而 Kaplan-Meier Method被用來估計存活曲線,是存活分析中最常使用的方法。能夠幫助我們對於含設限的資料進行存活分析,而在CDISC中針對 TTE (Time to Event) 分析方法所制定的規範為 The ADaM Basic Data Structure for Time-to-Event Analyses。而在本次專案中,我們將透過R與SAS等兩種不同的軟體,實作上述的KM method。

組員:江杰修, 吳汶璇, 林宜平, 陳儀婷, 蔡佳穎
業師:林坤宏

台灣實價登錄建模

近幾年來台灣不動產價格忽高忽低,許多民眾無法負擔起這麼高的房價,導致現在很多人只能租屋,無法買一棟屬於自己的房子,也有許多的房仲會哄抬價格,導致買家購買房子的價格比實際價格還要來得高。政府為了平抑高房價民怨,採取了一連串居住正義政策。「實價登錄」制度即為其一。用來做為建置房地產交易開放資料平台的法源依據,期望透過透明的交易資訊平抑飆漲的房價,並為未來可能施行的實價課稅預作準備。實價登錄提供民眾能公開的了解房市起伏,更是可防止此類事情發生。
本次研究將使用廣義線性模型與類神經網路這兩種不同的驗證模型,利用實價登錄資料來建置一個不動產鑑價模型。因為傳統的房屋人工鑑價較耗時費工,希望能夠輕鬆運用此模型完成鑑價。建立房價模型不但能夠用來預測房價,還能用預測的方式,先預估相同條件的房屋價格,找出大量資料中的價格異常的資料。

組員:呂育甄, 朱奕碁, 顏沛慈, 朱柔安
業師:陳宇邦

台北市交通事故探討

根據交通部統計,近年台灣交通事故死傷每年平均約40萬人,是世界車禍傷亡密度很高的國家。由於交通案件中,違規較嚴重者常為肇事主因,因此本次研究將從主要肇事者是否傷亡的面相切入討論,整理出主要造成肇事者傷亡的重要特徵及因素。
本次研究針對人口密度高的台北市進行探討,希望能有效協助往後交通安全宣導方針之參考,以利降低台灣高比例的交通傷亡事故。根據關聯事分析發現交通事故中主要肇事者多為騎乘機車,且其造成的傷亡比例也較其餘交通工具高。另外羅吉斯分析顯示,事故所在區序、事故所在的道路型態、事故發生是否為假日、事故發生是否為上下班時段、主要肇事者使用車種及主要肇事者性別等為造成主要肇事者傷亡的重要影響因素。

組員:莊誠奉, 莊浩偉, 周誼虔, 陳睿杰, 吳明蓉
業師:Kristen

台灣房價之分析與探討

買房子對一般人而言是一筆很大的開銷,故在買房前作謹慎評估是有其必要的。隨著實價登入上路,房價資訊公開,買賣雙方資訊不對等的情況漸漸消失。
本次研究分析樂屋網實價登錄系統的房價資料。使用回歸分析與決策樹,欲從中探討房屋中的臥室數、客廳數、衛浴數、房屋年齡、房屋坪數對於房價之影響。除次之外,我們認為除了房屋本身特徵,亦懷疑外在大環境的變動對於房價的影響也不容忽視,故我們後續接著探討兩時間相關變數:房價指數與油價,進行分析。

組員:張舒婷, 李逢軒, 楊富傑, 江易芹
業師:王斯霈

預測音樂受歡迎程度

隨著科技的進步,從黑膠唱片、錄音帶,一路演進到 CD 光碟、MP3,再到智慧型手機,音樂的儲存、傳遞與收聽方式更為便利。現今的音樂平台、軟體也相當豐富多元,不但可以針對用戶的喜好推薦個人化的歌單,同時也提供每日、每周甚至是每月的排行榜,反映歌手的表現成績。
打造一張專輯所花費的成本是不容小覷的,唱片公司在決策主打歌曲與其他廣告行銷時,投入在串流量的上升幅度是有明顯突出的歌曲上。本次研究運用 Spotify 中的歌曲串流量資料與歌曲特性資料,建立模型以預測什麼樣特性的歌曲在未來是有潛力佔據排行榜,提供唱片公司歌曲的串流量情況預測。

組員:陳思翰, 黃建錕, 鄧敏琪
業師:蔡靜雯, 蔡育儒