创建特征

数值特征之间的关系通常通过数学公式来表达,这是在领域研究中经常遇到的。在Pandas 中,算术运算可以应用于列,就像它们是普通数字一样。

在汽车数据集中,有一些描述汽车发动机的特征。研究已经产生了多种公式来创建潜在有用的新功能。例如,“冲程比”是衡量发动机效率和性能的指标:

组合越复杂,模型学习起来就越困难,比如这个发动机“排量”的公式,这是一种测量发动机功率的方法。

数据可视化可以建议转换,通常通过幂或对数“重塑”特征。例如,美国事故中的风速分布是高度倾斜的。在这种情况下,对数有效地将其标准化:

创建特征

2. 计数

描述某种事物存在或不存在的特征通常是一组疾病的危险因素。可以通过创建计数来聚合这些特征。

这些属性将是二进制的(1 表示存在,0 表示不存在)或布尔值(True 或False)。在Python 中,布尔值可以像整数一样相加。

在交通事故中,有几个特征可以表明某个道路物体是否位于事故发生地附近。这将使用求和方法创建附近道路要素总数的计数:

创建特征

您可以使用数据框的内置方法。具体数据集中是具体配方中的成分数量。许多配方缺少一个或多个组件(即该组件的值为0)。这将计算数据框内置gt 方法的公式中有多少个组件:

3. 构建和分解元素

通常,您会拥有可以有效分解为更简单片段的复杂字符串。一些常见的例子:

ID 号: \’123-45-6789\’电话号码: \'(999) 555-0123\’街道地址: \’8241 Kaggle Ln. Goose City, NV\’互联网地址: \’http://www.kaggle.com产品代码: \’0 36000 29145 2\’日期和次3 3360 \’Mon Sep 30 07:06:05 2013\’ 像这样的功能通常具有一些可以利用的结构。例如,美国电话号码有一个区号(999) 部分,可以告诉您呼叫者的位置。像往常一样,一些研究可以在这里得到回报。

创建特征

4.群组变换

组转换,将信息聚合到按类别分组的多行中。通过组转换,您可以创建“按人居住的州划分的平均收入”或“按类型在工作日发行的电影的比例”等功能。如果您发现类别交互,那么对该类别执行组切换可能是一个很好的调查方法。

使用聚合函数,组转换结合了两个函数:一个提供分组的分类函数和另一个要聚合其值的函数。对于州平均收入,您可以选择州作为分组特征,选择平均值作为聚合函数,选择收入作为聚合特征。为了在Pandas 中计算这一点,我们使用groupby 和transform 方法:

上一篇
下一篇

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

0898-88881688

在线咨询: QQ交谈

邮箱: email@zhutibaba.com

工作时间:周一至周五,9:00-17:30,节假日休息