当前位置:首页 > 教育培训 >

python语言九个特点(python语言)

来源:原点资讯(m.360kss.com)时间:2023-06-23 10:00:11作者:YD166手机阅读>>

通常,此平均值与整个数据集的结果概率混合,以减少很少出现的值的方差。请务必注意,由于类别值是根据输出值计算的,因此这些计算应在训练数据集上完成,然后应用于其他数据集。否则,我们将面临信息泄漏,这意味着我们将在训练集内包含有关测试集输出值的信息。这将使我们的测试无效或给我们虚假的信心。好吧,让我们看看如何在代码中执行此操作:

categorical_data["species"] = categorical_data["species"].cat.codes island_means = categorical_data.groupby('island')['species'].mean() sex_means = categorical_data.groupby('sex')['species'].mean()

在这里,我们对输出特征使用标签编码,然后计算分类特征""和"性别"的平均值。以下是我们为"岛屿"功能获得的内容:

island_means

island Biscoe 1.473054 Dream 0.548387 Torgersen 0.000000

这意味着值 BiscoeDreamTorgersen 将分别替换为值 1.473054、0.548387 和 0。对于"性别"功能,我们也有类似的情况:

sex_means

sex FEMALE 0.909091 MALE 0.921348

这意味着值 FEMALEMALE 将分别替换为 0.909091 和 0.921348。以下是数据集中的外观:

categorical_data['island_target_enc'] = categorical_data['island'].map(island_means) categorical_data['sex_target_enc'] = categorical_data['sex'].map(sex_means) categorical_data

python语言九个特点,python语言(17)

2.5 省略一个目标编码

我们在本教程中探讨的最后一种编码类型是建立在目标编码之上的。它的工作方式与目标编码相同,但有一个区别。当我们计算样本的平均输出值时,我们排除了该样本。下面是在代码中完成它的方法。首先,我们定义一个执行以下操作的函数:

def leave_one_out_mean(series): series = (series.sum() - series)/(len(series) - 1) return series

然后,我们将其应用于数据集中的分类值:

categorical_data['island_loo_enc'] = categorical_data.groupby('island')['species'].apply(leave_one_out_mean) categorical_data['sex_loo_enc'] = categorical_data.groupby('sex')['species'].apply(leave_one_out_mean) categorical_data

python语言九个特点,python语言(18)

3. 处理异常值

异常值是偏离数据整体分布的值。有时这些值是错误的和错误的测量值,应该从数据集中删除,但有时它们是有价值的边缘情况信息。这意味着有时我们希望将这些值保留在数据集中,因为它们可能携带一些重要信息,而其他时候我们希望删除这些样本,因为信息错误。

简而言之,我们可以使用四分位数间范围来检测这些点。四分位数间范围或 IQR 指示 50% 的数据所在的位置。当我们寻找这个值时,我们首先寻找中位数,因为它将数据分成两半。然后,我们定位数据下端的中位数(表示为Q1)和数据较高端的中位数(表示为Q3)。

Q1Q3 之间的数据是 IQR。异常值定义为低于 Q11.5(IQR) 或高于 Q3 1.5(IQR) 的样本。我们可以使用箱线图来执行此操作。箱线图的目的是可视化分布。从本质上讲,它包括重要点:最大值,最小值,中位数和两个IQR点(Q1,Q3)。以下是箱线图的一个示例:

python语言九个特点,python语言(19)

让我们将其应用于PalmerPenguins数据集:

fig, axes = plt.subplots(nrows=4,ncols=1) fig.set_size_inches(10, 30) sb.boxplot(data=data,y="culmen_length_mm",x="species",orient="v",ax=axes[0], palette="Oranges") sb.boxplot(data=data,y="culmen_depth_mm",x="species",orient="v",ax=axes[1], palette="Oranges") sb.boxplot(data=data,y="flipper_length_mm",x="species",orient="v",ax=axes[2], palette="Oranges") sb.boxplot(data=data,y="body_mass_g",x="species",orient="v",ax=axes[3], palette="Oranges")

python语言九个特点,python语言(20)

栏目热文

python 语言的最大特点(python语言变量命名)

python 语言的最大特点(python语言变量命名)

带你走进 @ 机器人时代Discover 点击上面蓝色文字,关注我们Python越来越热,随着大数据和人工智能的兴起,P...

2023-06-23 09:37:22查看全文 >>

python的十大特点(简述python的特点)

python的十大特点(简述python的特点)

每种语言都有自己的特征,每种语言都有自己的演化历程,C语言、Java、PHP...这些被我们广泛应用、学习的语言,各有...

2023-06-23 09:35:44查看全文 >>

python类和对象详解(Python类和对象的区别)

python类和对象详解(Python类和对象的区别)

Python 是一种面向对象的编程语言。这意味着几乎所有代码都可以使用称为“类”的特殊结构实现。什么是类和对象类:用户定...

2023-06-23 09:25:31查看全文 >>

python的缺点(python好处和坏处)

python的缺点(python好处和坏处)

点击上方关注,All in AI中国Python 编程语言是一种高级、解释和通用的动态编程语言,专注于代码可读性。与Ja...

2023-06-23 09:31:24查看全文 >>

python十大特点(python 主要有哪些特点)

python十大特点(python 主要有哪些特点)

选自towardsdatascience作者:Farhad Malik机器之心编译编辑:陈萍近日,Python 3.9 ...

2023-06-23 09:27:07查看全文 >>

人工智能python语言的特点(python人工智能语言排名)

人工智能python语言的特点(python人工智能语言排名)

在我国人工智能在这几年发展势头强劲,像人脸识别,医学等多个领域我们有着不错的成绩。但除了对硬件像GPU有着更高的要求之外...

2023-06-23 09:39:48查看全文 >>

python的主要特点简述(python五个特点)

python的主要特点简述(python五个特点)

一:Python是什么? Python 是一种高层次的结合解释性、编译性、互动性和面向对象的脚本语言。Python 的设...

2023-06-23 09:51:54查看全文 >>

学python好找工作吗(转行学python好找工作吗)

学python好找工作吗(转行学python好找工作吗)

Python学习结束后找什么工作?Python前景怎么样?当你在学习这门语言的时候,你会不会担心以后找不到一份满意的工作...

2023-06-23 09:47:18查看全文 >>

python语言三大特性(简述python语言的四个特点)

python语言三大特性(简述python语言的四个特点)

一、继承我们一直在说面向对象扩展性高,从来不知道他的扩展性高体现在哪些方面,接下来我们就来介绍他的三大特性,三大特性分别...

2023-06-23 09:56:04查看全文 >>

人工智能用哪种编程语言最好(人工智能最常用的编程语言)

人工智能用哪种编程语言最好(人工智能最常用的编程语言)

来源 | medium译者 | 张涛 责编 | Carol出品 | AI科技大本营(ID:rgznai100)AI系统的...

2023-06-23 09:33:47查看全文 >>

文档排行