Python 學生團隊

成立目標

透過Python工具訓練學生資料分析基本能力、學習資料科學相關知識。
促進團隊參與數據分析的產學合作案,增加學生實務經驗。
 
 

團隊特色

本社團採學長姐傳承的方式,主要教學由學長姐負責,ERP暨大數據中心協助規劃。
Python團隊整體課程規劃包含完整的資料分析步驟:資料收集、資料整理、資料分析、資料視覺化。
當有資料分析的產學案時,會從社團中擇優秀學生參與執行。
修課期滿時,符合標準可取得中大ERP中心開立之技能核定證書。
 
 

團隊介紹

結合爬蟲程式 (包含網頁語法介紹) 、機器學習 、Deep Learning 、Text Mining 為主軸,從觀念到實作一次到位。
適合:對數據分析有興趣的學生加入。
建議:具備程式觀念者尤佳 (不一定是Python)
 
 

課程大綱

 
1. HTML+CSS
首先認識網頁架構組成,實際製作簡單網頁,了解基礎HTML文本解析一些常見的元素,提取一些關鍵的信息以利後續爬蟲處理。

2. Web Crawler
在web crawler課程裡,你將領略到如何通過Python代碼從網路上獲取有趣的數據,並透過實戰練習,帶您學會爬取網頁文字資料並解析其結構與內容,再運用簡單的資料視覺化與資料分析,實際了解資料分析的歷程。

二、資料清理

1. Basic Python
Python 是目前資料處理的主流語言之一,因此是本團隊的核心重點之一。
本階段將會教您基本的 python 邏輯及規則,以銜接後續的內容。
預計 4 堂課約 12 小時由淺入深,讓完全沒有程式基礎的初學者也能掌握一門重要的程式語言。

2. Data Clean
如何在有限的資源與時間下,進行有效的資料探勘,首先必須做資料前處理,資料探勘模型才會準確,進而提高資料探勘結果的正確性。本階段課程教授你如何使用Python函式庫提供的Numpy、Panda、Matplotlib等套件,學會快速清理資料,奠定機器學習的必備技能。

三、資料分析

1. Scikit-learn
Scikit-learn 是Python當中所會使用的免費機器學習程式庫。
其中含有分類( Classification)、回歸(Regression)、分群(Clustering)演算法如支援向量機(SVM)、隨機森林(Random forests)、k-means等方法。
本節將會與大家討論有關於基本的機器學習相關理論,並且使用到Sklearn當中的演算法將前章用Pandas等套件所整理出來的乾淨資料進行分析、預測。最後將使用預測結果推斷出可能發生的故事與實際應用之方法。

2. Tensorflow
TensorFlow為一個開源軟體庫,用於各種感知與語言理解任務的機器學習,多為業界所使用。
本階段課程將教授深度學習(deep learning)基礎概念,並介紹最近當紅的卷積神經網路(CNN)和遞迴神經網路(RNN)概念,並利用TensorFlow搭配keras套件實作圖像辨識與情感分析。

3. TextMining
多數的資料探勘技術都是利用數值資料進行分析,若想提取文本資料中模模糊糊清清楚楚的消費者意見或情感,需要經過許多前處理的步驟。
在此課程中我們學習使用NLTK套件進行文字探勘,他是一套基於Pyhon的自然語言處理工具箱,介紹的範圍會包含典型斷詞、詞性標註、模塊分析等,也能針對語句詞性結構進行篩選,是一個很方便的套件。
 

四、資料視覺化

1. JavaScript+ D3.js
JavaScript 為近期最熱門語言之一,可被用來進行全端開發。而課程將著重以下兩個重點:
.JavaScript 基礎語法(以 ES6+ 語法為主)。
.JavaScript 前端資料視覺化的 library - D3.js。
此課程目的在於,將上段課程分析的資料與結果去做視覺化互動的呈現,以及更多加值型的應用。