当前位置：首页 > news >正文

LL面试题11

news 2025/7/2 19:08:20

物流算法实习面试题7道

GLM是什么？

GLM(Generalized Linear Model)是一种六义线性模型，用于建立变量之间的关系。它将线性回归模型推广到更广泛的数据分布，可以处理非正态分布的响应变量，如二项分布（逻辑回归）、泊松分布和伽玛分布等。GLM结合线性模型和非线性函数，通过最大似然估计或广义最小二乘估计来拟合模型参数。

SVM的原理？怎么找到最优的线性分类器？支持向量是什么？

SVM(Support Vector Machine)是一种二分类模型，其原理是在特征空间中找到一个最优的超平面，能够最大化不同类别之间的间隔。SVM的目标是找到一个能够将两个类别分开的超平面，并且使得离超平面最近的样本点到该超平面的距离最大化，这些离超平面最近的样本点称为支持向量。找到最优的线性分类器的过程包括：寻找最大间隔超平面：通过求解一个凸优化问题，使得间隔最大化。转化为对偶问题：通过转化为对偶问题，可以更高效地求解最优化问题。核技巧(Kernel Trick)：如果数据不是线性可分的，可以使用核函数将数据映射到高维特征空间，使其在高维空间中线性可分。支持向量是训练过程中对于确定超平面位置最关键的样本点，它们位于各个类别之间的边界上，决定了超平面的位置和形状。

介绍一下CNN?

CNN(Convolutional Neural Network,卷积神经网络)是一种深度学习模型，主要用于图像识别和计算机视觉任务。CNN通过卷积层、池化层和全连接层等组件，自动学习图像的特征表示。CNN的主要包括：卷积层：通过卷积操作，提取图像的局部特征，保留空间结构信息。池化层：通过降采样操作，减少特征图的维度，提取更加抽象和稳定的特征。全连接层：将特征图转化为向量，并通过全连接层进行分类或回归。

CNN中的卷积到底指什么？举个例子？

在CNN中，卷积(Convolution)指的是一种特殊的数学操作，用于提取图像的局部特征。卷积操作基于滤波器（也称为卷积核或特征检测器），它通过滑动窗口在输入图像上进行计算。具体来说，卷积操作将滤波器与输入图像的小区域进行逐元素相乘，并将结果相加，从而得到一个新的特征值。通过将滤波器在整个图像上滑动，可以获得一个特征图，其中每个位置都对应一个特征值。卷积操作可以保留图像的空间结构信息，并在不同位置共享参数，减少模型的参数量。举个例子，假设有一个3x3的滤波器和一个5x5的输入图像。卷积操作首先将滤波器的每个元素与输入图像的对应区域的像素值进行相乘，然后将乘积结果相加，得到一个新的特征值。然后，滤波器在输入图像上移动一个像素，并重复这个过程，直到覆盖整个输入图像。最终，得到一个3x3的特征图，其中每个位置对应一个特征值。卷积操作在CNN中的重要性在于，通过多个卷积层的堆叠，可以提取不同层次的图像特征，从低级的边缘和纹理特征到高级的形状和物体特征，以支持图像分类、目标检测等计算机视觉任务。

介绍决策树、信息熵？

决策树(Decision Tree)是一种基于树形结构的机器学习算法，用于分类和回归任务。它通过对输入特征进行一系列的二分切分，构建一个树结构来进行决策。决策树的构建过程如下：选择最佳切分特征：通过计算特征的纯度或不纯度指标，选择最佳的特征来切分数据集。切分数据集：根据选定的切分特征和阈值，将数据集划分为两个子集，每个子集将作为下一层决策树的输入。递归构建子树：对每个子集，重复上述步骤，递归构建子树，直到满足终止条件，如达到最大深度或样本数量小于阈值。预测和分类：根据构建好的决策树，对新的样本进行预测或分类。通过沿着树的路径根据特征值进行判断，最终到达叶子节点并输出相应的预测结果。信息熵(Information Entropy)是衡量数据集纯度或不确定性的度量指标。在决策树算法中，常用的纯度指标之一是信息熵。信息熵的计算公式如下：H(X)=-Z p(x)log2(p(x))其中，H(X)代表数据集X的信息熵，p(x)代表样本属于类别x的概率。信息熵的值越大，表示数据集的不确定性越高，纯度越低。决策树通过选择能够最大程度降低信息熵的特征来进行切分，从而提高子集的纯度。当数据集的信息熵为0时，表示数据集完全纯净，所有样本属于同一类别。决策树算法的目标是通过选择最佳切分特征和阈值来构建一个具有高纯度的决策树模型，以实现对新样本的预测和分类。信息熵在此过程中起到了衡量数据纯度的重要作用。

随机森林“随机”二字体现在什么地方？

在随机森林(Random Forest)中，“随机”二字体现在以下几个方面：随机采样：随机森林通过从原始数据集中有放回地随机采样形成多个训练子集(bootstrap samples)，用于构建不同的决策树。这样做可以使得每个决策树使用的样本有所不同，增加模型的多样性。随机特征选择：在每个决策树的节点切分时，随机森林只考虑部分特征的子集进行切分。这样可以确保每个决策树对特征的使用略有差异，增加模型的多样性，并减少特征之间的相关性。随机森林是一种集成学习方法，它通过同时构建多棵决策树并基于集体投票或平均来做出最终预测。由于每棵决策树都是通过随机性的方式构建的，随机森林能够减少过拟合风险，并在处理大量数据和高维特征时表现良好。

介绍一下XGBo0st,与GBDT相比有什么不同？

XGBoost(eXtreme Gradient Boosting)是一种梯度提升树(Gradient BoostingDecision Trees)的优化实现。它在GBDT的基础上进行了改进和优化，提供了更高的性能和可扩展性。与传统的GBDT相比，XGBoost具有以下不同之处：正则化：XGBo0st引入了正则化项，包括L1和L2正则化，以控制模型的复杂度，减少过拟合的风险。列采样：XGBoost支持对特征进行列采样，即在每棵树的每次分裂时随机选择一部分特征。这样可以减少特征之间的相关性，并增加模型的多样性。高效的并行处理：XGBoost通过使用多线程进行模型训练，同时支持在分布式环境中进行并行训练，以提高训练速度和效率。特征重要性评估：XGBoost提供了一种可靠的方法来评估特征的重要性，根据特征在模型中的使用频率和它们对预测结果的贡献程度进行排序。提升性能：XGBoost通过使用二阶导数(Hessian)近似来更好地优化损失函数，并采用分位数损失函数(Quantile Loss)等来应对不平衡数据和异常值。总之，XGBoost是GBDT的一种优化实现，通过正则化、列采样、并行处理和特征重要性评估等手段，提供了更高的性能和可扩展性。它在机器学习和数据竞赛中广泛应用，具有出色的性能和鲁棒性。

云AI工程师暑期实习面试题

你经常用的排序算法有哪些

常用的排序算法有以下几种：冒泡排序(Bubble Sort)选择排序(Selection Sort)插入排序(Insertion Sort)归并排序(Merge Sort)快速排序(Quick Sort)堆排序(Heap Sort)

冒泡排序的时间复杂度

冒泡排序的时间复杂度为O(n2),其中n是待排序元素的个数。

对于一个已经大部分排好序的数组用哪种排序更好

对于一个已经大部分排好序的数组，插入排序(Insertion Sort)通常更好。因为插入排序的时间复杂度在最好的情况下是O),而其他排序算法的时间复杂度通常为O(nlogn).

权值相等的图求最短路径用什么算法好一点

当权值相等的图求最短路径时，可以使用广度优先搜索算法(BFS)。由于权值相等，BFS可以保证先访问的节点到达目标节点的路径长度一定是最短的。

为什么不用DFS?

不使用深度优先搜索(DFS)的主要原因是DFS没有保证找到最短路径的能力。DFS是一种通过递归深入图的路径直到无法继续，然后回溯并尝试其他路径的算法。在搜索最短路径的问题中，DFS可能会陷入无限循环或者找到一条远离起点的路径。

BFS还有什么优化方法吗？

BFS可以通过使用队列来进行优化，即按照广度优先的顺序访问节点，并将每个节点的相邻节点按照一定顺序加入队列中。这样可以保证在搜索最短路径时，首先访问离起点最近的节点，减少了不必要的搜索。

平时有应用的场景吗？

BFS在实际应用中有很多场景，其中包括：网络爬虫：用于爬取网页时可以利用BFS搜索链接，以广度优先的方式遍历整个网站。社交网络：用于查找两个用户之间的最短路径，或者寻找关键人物等。迷宫求解：可以利用BFS寻找从起点到终点的最短路径游戏Al:BFS可以用于游戏中的路径搜索和寻找最优解等。

二叉树的遍历方式有哪些，有哪几种实现方式

二叉树的遍历方式有三种：前序遍历(Preorder Traversal):根节点->左子树->右子树;中序遍历(Inorder Traversal):左子树->根节点->右子树后序遍历(Postorder Traversal):左子树->右子树->根节点二叉树的遍历可以使用递归方式或迭代方式来实现。

给你一个什么顺序，你能够确定一棵二叉树？

给定前序遍历和中序遍历序列，可以确定一棵二叉树。因为前序遍历的第一个节点是根节点，在中序遍历序列中找到该节点，可以确定左子树和右子树的节点数量。然后根据这个信息，可以将前序遍历序列和中序遍历序列划分为左子树和右子树的序列，然后递归地构建二叉树。

为什么前序和后序不能确定出来一棵二叉树？

前序和后序遍历无法唯一确定一棵二叉树的原因是因为无法确定根节点的位置。在前序遍历序列中，根节点是第一个访问的节点，而在后序遍历序列中，根节点是最后一个访问的节点。但是，无法根据这两个遍历序列确定根节点在中间的其他节点的位置关系，因此无法唯一确定一棵二叉树。

你怎么理解深度学习中的熵的概念？

在深度学习中，熵是一种衡量随机变量不确定性的概念。在信息论中，熵用来表示一组数据的平均信息量。对于一个随机变量X,其熵H(X)表示对X进行观测时获得的平均信息量。熵越高，表示随机变量的不确定性越大。在深度学习中，熵常用于衡量分类模型的输出分布的不确定性。例如，在分类问题中，熵可以用来衡量模型对于每个类别的预测的不确定性。当模型的预测分布趋向于均匀分布时，熵达到最大值，表示模型对于各个类别的预测都没有偏好，即不确定性最大。相反，当模型的预测分布趋向于单一类别时，熵接近最小值，表示模型对于预测的类别具有确定性。通过最小化熵或交叉熵损失函数，可以促使模型学习更准确、更确定的预测分布。

风控算法面试题

样本不平衡问题怎么处理的，有什么方法？

重采样方法：通过欠采样（随机删除多数类样本）或过采样（复制少数类样本或生成合成样本)来平衡样本分布。常见的方法包括随机欠采样、SMOTE(SyntheticMinority Over-.sampling Technique)等。类别权重调整：通过调整分类算法中不同类别的权重，使得分类器更加关注少数类样本。一些分类算法（如逻辑回归、支持向量机）提供了设置类别权重的参数。集成方法：使用集成学习算法，如随机森林或梯度提升树（例如XGBo0st和LightGBM)，能够处理样本不平衡问题。这是因为集成算法可以从多个子模型中综合考虑不同类别的情况。

快速排序时间复杂度？稳定性怎么样？为什么是不稳定的

快速排序(QuickSort)的平均时间复杂度为O(n log n),最坏情况下的时间复杂度为O(n2)。快速排序的稳定性取决于具体的实现方式。通常情况下，快速排序是不稳定的，因为在分区过程中，元素的相对顺序可能会改变。快速排序的不稳定性是由于分区过程中的元素交换操作引起的。在分区过程中，我们选择一个基准元素（通常是第一个或最后一个元素），将小于基准的元素放在基准的左边，大于基准的元素放在基准的右边。在交换元素的过程中，相等元素的相对顺序可能发生改变，从而导致排序结果的不稳定性。

各种评估指标？

准确率(Accuracy)：分类正确的样本数与总样本数之比。精确率(Precision)：在被分类为正例的样本中，真正例的比例。召回率(Recall)：在所有正例中，被正确分类为正例的比例。F1分数(F1 Score)：精确率和召回率的调和均值，综合考虑了两者。ROC(Receiver Operating Characteristic curve)AUC (Area Under theCuve)：绘制真正例率(TPR)和假正例率(FPR)之间的关系曲线，并计算曲线下面积。混淆矩阵(Confusion Matrix)：展示分类结果的四个统计数字：真正例(TruePositive,TP)、假正例(False Positive,FP)、真反例(True Negative,TN)和假反例(False Negative,FN)

xgboost:算法介绍？

XGBoost是一种基于梯度提升树(Gradient Boosting Tree)算法的集成学习模型，它在梯度提升树的基础上进行了优化和改进。GBoost的主要特点和优势包括：正则化：XGBoost引入了正则化项来控制模型的复杂度，防止过拟合。它通过控制叶子节点的权重以及树的复杂度来实现正则化，避免单棵树过于复杂。自定义损失函数：XGBoost允许用户自定义损失函数，从而能够灵活地适应不同的任务需求。特征选择：XGBoost通过计算特征的重要性得分，可以帮助识别和选择最具预测能力的特征。高效并行：XGBoost在训练过程中支持并行计算，可以利用多线程和分布式计算加速模型的训练。缺失值处理：XGBoost能够自动学习如何处理缺失值，无需对缺失值进行特殊处理。特征交叉：XGBoost支持特征交叉，可以通过组合特征创建新的特征，提升模型的表达能力。

评分卡建模全流程？

数据准备：收集并清洗需要建模的数据，包括缺失值处理、异常值处理、变量转换等。变量选择：通过特征分析、相关性分析、变量筛选方法（如Ⅳ值、WOE值）等，选择最具预测能力的变量作为建模输入。数据切分：将数据集切分为训练集和验证集（测试集），用于模型训练和验证。建立评分卡模型：根据业务需求选择适当的分类算法，如逻辑回归、决策树等，建立评分卡模型。在建模过程中，需要进行特征工程、变量转换、变量融合等步骤。模型评估和验证：使用验证集对模型进行评估，包括计算评分卡的各项指标，如准确率、精确率，召回率、F1分数等。根据评估结果对模型进行调优和验证.

查看全文

http://www.lryc.cn/news/578763.html