0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌街景数据建立车祸预测新模型

电子工程师 ? 来源:fqj ? 2019-05-16 17:11 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

预测是机器学习算法最重要的一个研究方向。众多保险公司利用机器学习算法为他们的客户建立预测模型。其中,车祸预测模型是众多模型里面最难建立的。

车祸发生的影响因素多种多样,变化多端,着实让人摸不着头脑。

与其他商品不同的是,车祸保单的最终成本在初始销售时是未知的。因此,建立一个合理的定价机制是非常具有挑战的。有些保险公司尝试使用统计方法来解决这一问题:预测每个客户的未来风险。

例如,非常经典的汽车保险。大部分的保险公司确定的保险风险因素有司机的年龄、他的汽车配置相关以及汽车发生事故的历史情况。这也是为什么保险公司会在成交汽车保险之前需要客户提供的详细信息的原因。

波兰华沙大学经济科学系的Kinga Kita-Wojciechowska和斯坦福大学生物工程系的?ukasz Kidziński利用谷歌Google街景收集相对应的房屋图像,通过标释房屋的特征:例如年龄、类型以及其它条件。然后与目前最先进的保险风险模型相比,最后发现用谷歌街景数据建立的模型,能够有效地改进了汽车事故风险预测。

作者通过对谷歌街景数据的研究,发现下列结论?

房子的特征与居民的发生车祸风险相关,

与谷歌街景的其他研究用途相比,此模型数据特征来自于地址,并不是按照邮政编码或地区进行汇总,可能存在更为精细的划分;

从地址中提取的数据(房屋的图像)可用于保险和其他行业;

现代数据收集和科技技术允许对个人数据进行前所未有的利用,可能会超过立法的发展速度,并增加个人隐私威胁。

建模数据收集方法与特点

保险公司之前进行的风险建模和定价,通常只使用邮政编码这一特征。然而汇总到邮政编码的索赔数据仍然太不稳定,所以还需要进一步地调整。

另一方面,对于一些“外人”来说,保险公司客户的信息数据很难获得。本文使用的谷歌街景数据可以从来自Google街景的公开图像信息中提取出来。

图1.位于同一邮政编码中不同房屋的示例,根据当前保险公司的模型,这些房屋的居民具有相同的预期索赔频率。

此数据集包含20,000条记录的汽车保险数据集,数据来源于2012年1月至2015年12月期间收集到在波兰的保险投资组合的随机样本。

其中每项记录均涵盖汽车发动机第三方责任(MTPL)保险单的特点,包括投保人的地址、风险敞口(定义为一小部分有效年份在2013-2015年期间的保单)以及2013-2015年间发生的财产损坏索赔的统计数量。保险公司还提供了这些保单的财产损失索赔的预期频率,是根据他们目前最好的风险模型进行估计的,是根据客户的邮政编码进行分区的。

谷歌街景数据建立车祸预测新模型

图2.使用注释功能将为数据库中提供的地址,匹配收集谷歌卫星视图和谷歌街景图像。

对图像中可见的房屋中以下特征作了说明:居民的年龄、状况、财富以及邻近地区其他建筑物的类型。根据Fleiss’kappa(属性型测量分析)统计数据结果表明,它们之间大多数是一致稳健的。

继续注释剩余的19,371个地址(还从本研究的范围中删除了129个地址,因为它们要么是另外区域的,要么是Google地图找不到的),剩余的都将得到了一组单独的、随机选择的地址。

研究者比较了收集到的注释的分布情况,并在最后对四个注释器进行了小的修正,以匹配平均值和标准差。

谷歌街景数据建立车祸预测新模型

表1。在进行了必要的简化后,风险模型中对7个新创建的变量进行了统计

建模过程

接下来,估计一个广义线性模型(GLM)来研究新创建的变量对于风险预测的重要性。

假设索赔的概率模型如下:

频率为f,定义为索赔次数除以风险敞口:

谷歌街景数据建立车祸预测新模型

其中,MTPL保险中的一些财产损失索赔是服从泊松分布的,X是自变量的向量,也是系数的向量。

为了对方法所带来的增加值进行评价,引入了三个模型:

模型A(空模型),其中向量为

谷歌街景数据建立车祸预测新模型

模型B(一流保险商模型):其中向量为

谷歌街景数据建立车祸预测新模型

模型C(研究者使用的模型):其中向量为

谷歌街景数据建立车祸预测新模型

保险人为数据集中的每条记录提供了模型B的实现。

该模型是在一个更大的未对外披露数据集上进行估计的,包含j个预测变量(驾驶员特征、车辆特征、索赔历史、地理区域等)。

利用GLMs的特性,可以将模型C分解为两个部分:一个对应于模型B,另一个则包含新变量。

因此,模型C为:

谷歌街景数据建立车祸预测新模型

这些系数的值是否为非零,将表明研究者构造的变量为模型提供了额外的预测能力。在本研究中新创建的七个变量中,有五个对于预测财产损坏MTPL索赔频率模型具有重要意义,而在最好的保险公司模型中使用的许多其它评级变量都是重要的(表1)。

通过观察a、B、C模型的基尼系数的显著变异性,特别是对于模型A(只包含截距且没有选择其他变量的空模型)在20次重采样试验中,其变化范围为20 ~ 38%。将其解释为证据,即所提供的数据集非常小(20,000条记录),用于构建MTPL保险中的罕见事件,如财产损失索赔(平均频率为5%)。

谷歌街景数据建立车祸预测新模型

图3.在20个自举试验中获得的20%的检验样本上的基尼系数(A),从零模型(A)到最好的保险公司的模型(B)和研究者新建立的变量模型(C)。

尽管数据的波动性很大,但将五个简单变量加入到保险公司的模型中,在20次重新采样试验中的18次中尝试,提高了它的性能,并提高了基尼系数的平均水平。提高系数接近2个百分点(从38.2%到40.1%)。

通常保险公司的模型会运用更大的数据集,并包含了广泛的变量选择(例如驾驶员特征、汽车特征、索赔历史和基于客户邮政编码的地理区域),将基尼系数与空模型从0~30%提高到0~38%,提高了8个百分点(见图3)。

创新之处

通常保险公司的预测模型都是以常规的特征进行预测的,比如驾驶车辆习惯,索赔历史和客户财富级别等特征。

但是文中的模型使用了全新的谷歌街景地图的特征,比如街景地图中房屋所在周围环境,所在区域的密度,街景的质量和房屋类型年限等特征,评测结果也是比较令人欣慰,三个模型的基尼系数变动范围在20%—38%之间,我们能从图3中看见,经过20次的重采样实验得到的结果:具有街景新特征的模型比使用原有的优秀传统模型还要高出接近2个百分点。

当然由于数据样本量比较少,大概只有2万条左右,所以这也在一定程度上影响了基尼系数的提升。但是这在预测模型的研究方向中,给了我们一个新的思路,原来街景地图的特征会比传统的特征更加有效。当然未来肯定还会有更加有效的特征出现,来帮助我们提升预测准确度。

总结

从一张房子的图像中可见的特征预测发生车祸的风险,而且独立于经常使用的变量,如年龄或邮政编码。

这一发现迈出了一大步。它不仅提供了更为精确的风险预测模型,而且还说明了社会科学的一种新方法。

在这种方法中,真实世界中的细粒度数据可以经过大规模收集后进行分析。从保险公司的实际情况来看,给出的实验结果是显著的。研究者使用的模型中的5个变量包含了来自不完全注释的一些偏差,与保险公司在其最佳风险模型中已经使用的众多变量带来的8个百分点的改进相比,基尼系数提高了近2个百分点。

保险行业可能很快就会被银行效仿,因为保险风险模型与信用风险之间存在着已被证明的相关性。从谷歌街景(GoogleStreetView)中提取有价值信息的方法本身,不仅为金融业提供了各种机会。

此方法和深层次的学习技术可以使它在一个大规模自动化的模型中进行。同时,这种做法引起了人们对存储在公开可用的Google街景、Microsoft Bing Streetside、Mapillary或类似的私有数据集中的数据隐私的担忧。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6233

    浏览量

    108561
  • 机器学习
    +关注

    关注

    66

    文章

    8513

    浏览量

    135102

原文标题:斯坦福最新研究:看图“猜车祸”,用谷歌街景数据建立车祸预测新模型

文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    预测性维护实战:如何通过数据模型实现故障预警?

    预测性维护正逐步成为企业降本增效的核心手段,通过数据驱动的故障预警逻辑框架,可以预测设备是否正常运行,提前预警并避免损失。案例中,通过振动传感器采集数据,发现轴承故障,通过随机森林
    的头像 发表于 03-21 10:21 ?1221次阅读
    <b class='flag-5'>预测</b>性维护实战:如何通过<b class='flag-5'>数据模型</b>实现故障预警?

    《中国电机工程学报》网络首发论文:基于数据驱动观测器的永磁同步电机显式模型预测直接速度控制

    步骤一:构造预测模型。 考虑参数变化和外部扰动,表贴式 PMSM 的数 学方程为 (1) 其中,id、iq 和 ud、uq 分别为定子电流和电压的 d、 q 轴分量;?和?e 分别为机械角速度和电
    发表于 03-07 15:07

    请问是否可以在模型服务器中使用REST请求OpenVINO?预测

    是否可以在模型服务器中使用 REST 请求OpenVINO?预测
    发表于 03-05 08:06

    设备管理系统:如何实现预测性维护与故障预防?

    设备管理系统通过数据收集与分析、智能算法和维护策略制定,实现预测性维护与故障预防。通过建立设备模型预测设备性能变化趋势。设定预警阈值,确定
    的头像 发表于 02-13 09:56 ?766次阅读
    设备管理系统:如何实现<b class='flag-5'>预测</b>性维护与故障预防?

    谷歌 Gemini 2.0 Flash 系列 AI 模型上新

    谷歌旗下 AI 大模型 Gemini 系列全面上新,正式版 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验
    的头像 发表于 02-07 15:07 ?795次阅读

    信道预测模型数据通信中的作用

    在现代通信系统中,数据传输的可靠性和效率是衡量系统性能的关键指标。信道预测模型作为通信系统中的一个核心组件,其作用在于预测信道条件的变化,从而优化
    的头像 发表于 01-22 17:16 ?927次阅读

    借助谷歌Gemini和Imagen模型生成高质量图像

    在快速发展的生成式 AI 领域,结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示,然后使用 Imagen 3 模型根据这些提示生成高质
    的头像 发表于 01-03 10:38 ?969次阅读
    借助<b class='flag-5'>谷歌</b>Gemini和Imagen<b class='flag-5'>模型</b>生成高质量图像

    【「大模型启示录」阅读体验】营销领域大模型的应用

    用户体验和满意度,进而增加转化率。通过精准匹配消费者需求和产品特性,大模型帮助企业实现更高效的市场渗透和销售增长。 大模型能够处理和分析大量的市场数据预测市场趋势和消费者需求的变化。
    发表于 12-24 12:48

    谷歌发布Gemini 2.0 AI模型

    谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名为“深度研究”的新特性,旨在为用户提供更加全面和深入的复杂主题探索与报告撰写辅助。 Gemini 2.0通过高级推理和长上
    的头像 发表于 12-12 10:13 ?731次阅读

    Waymo利用谷歌Gemini大模型,研发端到端自动驾驶系统

    迈新步,为其机器人出租车业务引入了一种基于谷歌多模态大语言模型(MLLM)“Gemini”的全新训练模型——“端到端多模态自动驾驶模型”(EMMA)。
    的头像 发表于 10-31 16:55 ?1898次阅读

    谷歌计划12月发布Gemini 2.0模型

    近日,有消息称谷歌计划在12月发布其下一代人工智能模型——Gemini 2.0。这一消息引发了业界的广泛关注,因为谷歌在人工智能领域一直保持着领先地位,而Gemini系列模型更是其重要
    的头像 发表于 10-29 11:02 ?1212次阅读

    电梯按需维保——“故障预测”算法模型数据分析

    梯云物联的智能AI终端在故障预测算法模型数据分析中扮演着核心角色,其工作流程涵盖了数据采集、特征提取、模型构建、故障
    的头像 发表于 10-15 14:32 ?1225次阅读

    请问如何建立XTR110KU的Spice模型

    怎么建立XTR110KU的Spice模型
    发表于 09-02 06:11

    谷歌拟在越南建立其首个大型数据中心

    8月29日最新消息,据路透社援引内部消息源透露,谷歌正酝酿一项重要投资计划,拟在越南这一东南亚国家建立其首个大型数据中心。这一决定标志着美国科技巨头在地区布局上的新篇章。
    的头像 发表于 08-29 16:01 ?710次阅读

    NVIDIA Modulus助力风阻预测模型实现

    NVIDIA 与百度飞桨双方技术团队通过在数据、算法、模型等多个方面的合作,共同打造了一款适用于车辆空气动力学数值模拟的 3D 高精度汽车风阻预测模型——DNNFluid-Car。经过
    的头像 发表于 08-23 17:10 ?1527次阅读