求教一个机器学习的算法问题

水木社区手机版

主题:求教一个机器学习的算法问题
楼主|mahuta|2023-12-14 17:20:59|只看此ID
版上各位巨佬们，求教一个问题：
已有5000个样本的数据集可用于训练和验证，每个样本有10000个特征单元，这10000个单元在同一样本内互不相同，但是在每个样本中均存在；每个单元的数值不是0就是1；每个样本的10000个单元的数值之和，即为这个样本的总数值。现在希望找出最优的一个由100个单元组成的组合，能够根据任一样本内这100个单元中每一个的数值，预测出该样本的总数值。请问应该采用什么算法？
--
FROM 106.39.151.*
1楼|zszqzzzf|2023-12-15 15:05:24|只看此ID
主成分分析。
利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。

【在 mahuta 的大作中提到: 】
: 版上各位巨佬们，求教一个问题：
: 已有5000个样本的数据集可用于训练和验证，每个样本有10000个特征单元，这10000个单元在同一样本内互不相同，但是在每个样本中均存在；每个单元的数值不是0就是1；每个样本的10000个单元的数值之和，即为这个样本的总数值。现在希望找出最优的一个由100个单元组成的组合，能
: 桓萑我谎灸谡100个单元中每一个的数值，预测出该样本的总数值。请问应该采用什么算法？
: ...................
--
FROM 112.47.70.*
2楼|VincentGe|2023-12-15 17:14:00|只看此ID
Chatgpt 一下

对于这样的问题，你可以考虑使用特征选择和回归算法的组合。特征选择有助于筛选出对目标变量预测有重要影响的特征，而回归算法可以建模预测目标变量（样本的总数值）。

1. **特征选择：** 使用一些特征选择方法，如方差选择、互信息、递归特征消除（Recursive Feature Elimination）等，以筛选出对目标变量预测最重要的100个特征。

2. **回归算法：** 对于回归问题，你可以尝试使用线性回归、岭回归、LASSO回归等算法。这些算法可以根据选定的特征集合建立模型，预测样本的总数值。

3. **交叉验证：** 使用交叉验证来评估模型的性能，确保模型对于未见过的数据也有良好的泛化能力。

结合这些方法，你可以建立一个特征选择和回归的流程，从而找到最优的由100个单元组成的特征组合，以预测样本的总数值。

以下是一个简单的Python代码框架，演示如何使用特征选择和回归算法来解决你描述的问题。请注意，这是一个基本的例子，你可能需要根据实际情况进行更多的调整和优化。

```python
import numpy as np
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 假设你的数据集为X（特征）和y（目标变量）
# X.shape 应为 (5000, 10000)，y.shape 应为 (5000,)

# 特征选择
k_best_features = 100
X_selected = SelectKBest(f_regression, k=k_best_features).fit_transform(X, y)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.2, random_state=42)

# 线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型性能
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")
```

请确保你的环境中安装了相应的库，可以使用以下命令安装：

```bash
pip install numpy scikit-learn
```

此代码示例使用`SelectKBest`进行特征选择，选择与目标变量最相关的前100个特征，然后使用线性回归模型进行训练和预测。在实际应用中，你可能需要进一步优化参数、尝试不同的回归算法，并进行交叉验证来评估模型的性能。

【在 mahuta 的大作中提到: 】
:
: 版上各位巨佬们，求教一个问题：
: 已有5000个样本的数据集可用于训练和验证，每个样本有10000个特征单元，这10000个单元在同一样本内互不相同，但是在每个样本中均存在；每个单元的数值不是0就是1；每个样本的10000个单元的数值之和，即为这个样本的总数值。现在希望找出最优的一个由100个单元组成的组合，能够根据任一样本内这100个单元中每一个的数值，预测出该样本的总数值。请问应该采用什么算法？

#发自zSMTH@PCT-AL10
--
FROM 171.116.40.*
3楼|yzjba|2023-12-17 16:42:58|只看此ID
这是特征选择，不是降维
【在 zszqzzzf 的大作中提到: 】
: 主成分分析。
: 利用降维的思想,把多指标转化为少数几个综合指标。
: 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
: ...................
--
FROM 223.72.75.*
4楼|cut188|2023-12-18 08:13:19|只看此ID
这玩意就是个高级点的检索工具。毛用没有啊。古老的专家系统，换上新衣服。
【在 VincentGe 的大作中提到: 】
: Chatgpt 一下
: 对于这样的问题，你可以考虑使用特征选择和回归算法的组合。特征选择有助于筛选出对目标变量预测有重要影响的特征，而回归算法可以建模预测目标变量（样本的总数值）。
: 1. **特征选择：** 使用一些特征选择方法，如方差选择、互信息、递归特征消除（Recursive Feature Elimination）等，以筛选出对目标变量预测最重要的100个特征。
: ...................
--
FROM 114.254.10.*
5楼|tianccm|2023-12-18 09:55:02|只看此ID
最开始用PCA思路大体上没错吧，找出足够描述样本的前100维不就是降维么。

至于每个维度都是0/1，倒是可以再深入思考一下

【在 yzjba (菩提) 的大作中提到: 】
:  这是特征选择，不是降维
:  【在 zszqzzzf 的大作中提到: 】
:  : 主成分分析。
:  : 利用降维的思想,把多指标转化为少数几个综合指标。
--
FROM 221.218.103.*
6楼|gaofei|2023-12-18 14:25:04|只看此ID
决策树

训练完之后，找出前100个分类节点上的特征

【在 mahuta 的大作中提到: 】
: 版上各位巨佬们，求教一个问题：
: 已有5000个样本的数据集可用于训练和验证，每个样本有10000个特征单元，这10000个单元在同一样本内互不相同，但是在每个样本中均存在；每个单元的数值不是0就是1；每个样本的10000个单元的数值之和，即为这个样本的总数值。现在希望找出最优的一个由100个单元组成的组合，能
: 桓萑我谎灸谡100个单元中每一个的数值，预测出该样本的总数值。请问应该采用什么算法？
: ...................
--
修改:gaofei FROM 210.30.193.*
FROM 210.30.193.*
7楼|yzjba|2023-12-19 09:46:48|只看此ID
PCA是从10000个里算出100个，他要的是从10000个里选100个，不需要那9900个
【在 tianccm 的大作中提到: 】
: 最开始用PCA思路大体上没错吧，找出足够描述样本的前100维不就是降维么。
: 至于每个维度都是0/1，倒是可以再深入思考一下
--
FROM 223.72.75.*
8楼|tianccm|2023-12-19 10:59:00|只看此ID
OK，get到你的点了，结合他的数据都是0/1，就用SVM-RFE吧

【在 yzjba (菩提) 的大作中提到: 】
:  PCA是从10000个里算出100个，他要的是从10000个里选100个，不需要那9900个
:  【在 tianccm 的大作中提到: 】
:  : 最开始用PCA思路大体上没错吧，找出足够描述样本的前100维不就是降维么。
:  : 至于每个维度都是0/1，倒是可以再深入思考一下
--
FROM 221.218.103.*