本書介紹大量特征工程技術,闡明特征工程的基本原則。主要內容包括:機器學習流程中
的基本概念,數值型數據的基礎特征工程,自然文本的特征工程,詞頻- 逆文檔頻率,高效的分類變量編碼技術,主成分分析,模型堆疊,圖像處理,等等。
前言 ix
第 1 章 機器學習流程 1
1.1 數據 1
1.2 任務 1
1.3 模型 2
1.4 特征 3
1.5 模型評價 3
第 2 章 簡單而又奇妙的數值 4
2.1 標量、向量和空間 5
2.2 處理計數 7
2.2.1 二值化 7
2.2.2 區間量化(分箱) 9
2.3 對數變換 13
2.3.1 對數變換實戰 16
2.3.2 指數變換:對數變換的推廣 19
2.4 特征縮放/ 歸一化 24
2.4.1 min-max 縮放 24
2.4.2 特征標準化/ 方差縮放 24
2.4.3 2
歸一化 25
2.5 交互特征 28
2.6 特征選擇 30
2.7 小結 31
2.8 參考文獻 32
第3 章 文本數據:扁平化、過濾和分塊 33
3.1 元素袋:將自然文本轉換為扁平向量 34
3.1.1 詞袋 34
3.1.2 n 元詞袋 37
3.2 使用過濾獲取清潔特征 39
3.2.1 停用詞 39
3.2.2 基于頻率的過濾 40
3.2.3 詞干提取 42
3.3 意義的單位:從單詞、n 元詞到短語 43
3.3.1 解析與分詞 43
3.3.2 通過搭配提取進行短語檢測 44
3.4 小結 50
3.5 參考文獻 51
第4 章 特征縮放的效果:從詞袋到tf-idf 52
4.1 tf-idf:詞袋的一種簡單擴展 52
4.2 tf-idf 方法測試 54
4.2.1 創建分類數據集 55
4.2.2 使用tf-idf 變換來縮放詞袋 56
4.2.3 使用邏輯回歸進行分類 57
4.2.4 使用正則化對邏輯回歸進行調優 58
4.3 深入研究:發生了什么 62
4.4 小結 64
4.5 參考文獻 64
第5 章 分類變量:自動化時代的數據計數 65
5.1 分類變量的編碼 66
5.1.1 one-hot 編碼 66
5.1.2 虛擬編碼 66
5.1.3 效果編碼 69
5.1.4 各種分類變量編碼的優缺點 70
5.2 處理大型分類變量 70
5.2.1 特征散列化 71
5.2.2 分箱計數 73
5.3 小結 79
5.4 參考文獻 80
第6 章 數據降維:使用PCA 擠壓數據 82
6.1 直觀理解 82
6.2 數學推導 84
6.2.1 線性投影 84
6.2.2 方差和經驗方差 85
6.2.3 主成分:第 一種表示形式 86
6.2.4 主成分:矩陣- 向量表示形式 86
6.2.5 主成分的通用解 86
6.2.6 特征轉換 87
6.2.7 PCA 實現 87
6.3 PCA 實戰 88
6.4 白化與ZCA 89
6.5 PCA 的局限性與注意事項 90
6.6 用例 91
6.7 小結 93
6.8 參考文獻 93
第7 章 非線性特征化與k-均值模型堆疊 94
7.1 k-均值聚類 95
7.2 使用聚類進行曲面拼接 97
7.3 用于分類問題的k-均值特征化 100
7.4 優點、缺點以及陷阱 105
7.5 小結 107
7.6 參考文獻 107
第8 章 自動特征生成:圖像特征提取和深度學習 108
8.1 最簡單的圖像特征(以及它們因何失效) 109
8.2 人工特征提取:SIFT 和HOG 110
8.2.1 圖像梯度 110
8.2.2 梯度方向直方圖 113
8.2.3 SIFT 體系 116
8.3 通過深度神經網絡學習圖像特征 117
8.3.1 全連接層 117
8.3.2 卷積層 118
8.3.3 ReLU 變換 122
8.3.4 響應歸一化層 123
8.3.5 池化層 124
8.3.6 AlexNet 的結構 124
8.4 小結 127
8.5 參考文獻 128
第9 章 回到特征:建立學術論文推薦器 129
9.1 基于項目的協同過濾 129
9.2 第 一關:數據導入、清理和特征解析 130
9.3 第二關:更多特征工程和更智能的模型 136
9.4 第三關:更多特征= 更多信息 141
9.5 小結 144
9.6 參考文獻 144
附錄A 線性建模與線性代數基礎 145
A.1 線性分類概述 145
A.2 矩陣的解析 147
A.2.1 從向量到子空間 148
A.2.2 奇異值分解(SVD) 150
A.2.3 數據矩陣的四個基本子空間 151
A.3 線性系統求解 153
A.4 參考文獻 155
作者簡介 156
封面簡介 1562100433B
你好! 在分部分項編輯界面,點擊屬性窗口的“特征及內容”,在屬性窗口右邊會出現“清單名稱顯示”的界面。你選擇內容選項中的“項目特征+內容”,這樣在編輯界面就可以編輯項目特征及內容了。如下圖。...
《大設計》無所不在。在會議室和戰場上;在工廠車間中也在超市貨架上;在自家的汽車和廚房中;在廣告牌和食品包裝上;甚至還出現在電影道具和電腦圖標中。然而,設計卻并非只是我們日常生活環境中的一種常見現象,它...
本書分為上篇“平面構成”和下篇“色彩構成”兩個部分,每一部分的最后章節選編了一些本校歷年來學生的優秀作品作為參考,圖文并茂、深入淺出。此外,本書最后部分附有構成運用范例及題型練習,可供自考學生參考。本...
格式:pdf
大?。?span id="zrlvvpv" class="single-tag-height">84KB
頁數: 1頁
評分: 4.7
本書結合作者多年教學、科研經驗及工程實踐,較系統地介紹了地下工程測量的基本理論和基本方法,從理論和實踐兩個角度幫助讀者提高分析和解決地下工程領域測繪的能力。本修訂版在傳統測量技術的基礎上,新增測繪新技術元素,操作適用性更強,新的地鐵工程測量一章更具有針對性。全書內容豐富,具有一定的深度和廣度,充分反映了地下工程測量最新技術及其應用。
這套叢書針對不同層次的讀者,分為5個子系列:從入門到精通、技術內幕、高級編程、精通和認證考試教材。各系列特色如下:
★ 從入門到精通
*適合新手程序員的實用教程
*側重于基礎技術和特征
*提供范例文件
★ 技術內幕
*權威、必備的參考大全
*包含豐富、實用的范例代碼
*幫助讀者熟練掌握微軟技術
★ 高級編程
*側重于高級特性、技術和解決問題
*包含豐富、適用性強的范例代碼
*幫助讀者精通微軟技術
★精通
*著重剖析應用技巧,以幫助提高工作效率
*主題包括辦公應用和開發工具
★ 認證考試教材
*提供完整的Ebook(英文版)
*提供實際場景、案例分析和故障診斷實驗
*完全根據考試要求來闡述每一個知識點
這套叢書延續以前嚴謹的編校風格,一切以保證圖書內容和技術質量為核心,付出了大量心血。相信整合后的這套叢書必然會幫助程序開發人員、網絡開發人員以及具有一定編程基礎的中、高級讀者,快速、全面地掌握微軟技術,為將來的技術生涯奠定扎實的基礎,使之成為中國軟件產業的棟梁!
《裝飾工程施工:專業技能入門與精通》:從校園到職場
大型工程一般都構成一個非常復雜的大系統,這個系統不僅內部結構復雜,而且外部聯系廣泛,常具有如下特征:
1、工程系統是由多個相互制約和相互影響的子系統(子工程)有機結合的整體。要使系統效益全面發揮,必須全部完成各子工程和相應的配套工程,有時甚至還涉及到系統外一些工程。
2、工程建設可能產生的許多后果,影響深遠重大,稍有疏忽,就會造成難以彌補的損失。但這些后果、影響往往又是可以預測和估價的。
3、由于工程規模龐大,一般來說工程結構復雜,建設周期長,投資額大,相對來說效益也比較大。但另一方面,工程對政治、社會和生態系統的影響也很大,這一方面與小型工程相比有質的變化,工程系統往往不只是一個自然的物理系統,而是一個物理系統和事理系統的綜合體。
4、由于工程規模龐大、結構復雜、涉及面廣、影響深遠,所以,與小型工程相比,工程建設風險大,而且非常集中,這使決策的難度和壓力大大增加。