eigenvalue

Feature Vectorization 和 Eigenvector 是兩個完全不同的概念，雖然它們都涉及到數學中的“向量”，但它們的用途和上下文是不同的。讓我們來深入解釋這兩個概念及其區別。

Feature Vectorization 是指將數據集中的多個特徵組合成一個向量，這個過程通常發生在數據預處理的階段。其主要目的是將分散的特徵（如多個數據列）轉換成一個向量，以便機器學習模型能夠使用。

上下文：在機器學習和數據科學中，通常在處理結構化數據時，我們會將多個數據列（例如年齡、收入、房間數）合併成為一個向量，並作為模型的輸入。
作用：將多個特徵組合成一個統一的數學表示形式，以便模型進行運算和預測。
範例：假設一個房價預測數據集中包含三個特徵：房屋面積、房間數 和 房齡，我們可以將這些特徵組合成一個向量，如 [1500, 3, 10]，來表示一棟具體的房屋。

關鍵點：

Feature Vectorization 是一個將多個特徵組合成向量的過程，通常使用工具如 VectorAssembler 在 PySpark 中完成。
它是數據預處理中的一個步驟，並且每個數據點都有一個向量，這些向量代表了該數據點的多個屬性。

Eigenvector 是線性代數中的一個概念，與矩陣相關。它是當一個矩陣作用於一個向量時，該向量只會改變長度而不改變方向的向量。

上下文：在數學（特別是線性代數）和數據科學的降維技術中（如主成分分析，PCA），特徵向量有著重要的作用。PCA 用於將高維數據降維，通過選擇能夠描述數據最多方差的方向。
作用：特徵向量與特徵值有關，通常在矩陣分解或降維過程中使用。當我們對矩陣進行分解（如進行 PCA），特徵向量表示了數據的主要方向或模式，而特徵值則表示這些方向的“重要性”。
範例：如果我們有一個 2x2 的矩陣，應用在一個特定的向量上，如果這個向量的方向不變（只有長度改變），那麼這個向量就是這個矩陣的特徵向量。

關鍵點：

Feature Vectorization：
- 在機器學習中，對於一個房價預測模型，你可能有多個特徵，如房子的面積、房間數和房齡。這些特徵被組合成一個特徵向量，並作為機器學習模型的輸入來進行預測。
Eigenvector：
- 在主成分分析（PCA）中，特徵向量表示數據在高維空間中最重要的方向。PCA 將數據投影到這些特徵向量上，以實現降維操作。例如，將高維數據投影到低維空間，並且保留數據中的主要信息。

兩者的共同點是，它們都涉及到向量的使用，但在上下文和應用場景上存在顯著差異。