旅游大数据经得起质疑吗?—兼谈不同数据源的比较优势

  • 来源:
  • 发布时间:2015-07-31
  • 点击次数:1384

【内容提要】


      大地云游在5月21日推出了景区大数据画像后引起很强的反响,但另一方面,也引出了景区管理者们的众多疑问:“样本具有代表性吗?”,“能像传统统计数据一样实在和准确吗?”,“只统计百度地图用户数据,那不用百度地图的就不统计吗?”,诸如此类,不一而足。那么,相比传统数据,大数据又有什么优势呢?我们又该怎样客观地来看待旅游大数据?本文将从覆盖维度、数据量、数据粒度等角度来系统分析大数据的优势。


      一、揭揭大数据的老底


      1.大数据可能是非结构化的


      大数据的结构是非常复杂的,既包括像搜索量、时间、游客量等连续型数值变量,像性别、行业、兴趣等离散型变量这样传统的结构化数据,更增添了如文本、社会关系网络,乃至语音、图像等大量新兴的非结构化数据,而这些非结构化数据蕴含的信息量往往更加巨大。


      2.大数据可能是残缺的


      在现实的世界里,由于用户注册时填写的信息不全、计算机数据存储的错误等种种原因,数据缺失是常见的现象。但通过不同数据维度的关联特征,能够准确复原缺失数据,并推断产生新的数据指标,这就是用户痕迹复原方法(Utra)。


     3.大数据是存在异常值的


      在现实的世界里,大数据里也会存在异常值(outlier)。比如某些连续型变量(如针对某景区某天的搜索量)的取值太大,就会被当做异常值,对待异常值还需要考虑实际情况。大数据分析前,首先要对数据进行清洗和去噪,以此提出异常值对分析结果的不良影响,最大程度上保证数据分析精度。


      可见,大数据存在诸多弱点,但通过一定的算法设计和数据处理流程,完全可以保证数据的质量,加上其数据量大、抽样范围广、数据维度大等优势,使其在不同行业里得到快速应用,毫不夸张的说,大数据已经给全行业带来了颠覆性的改变,互联网行业首当其冲,接着是商业智能与咨询服务领域、零售行业,还包括医疗、卫生、交通、物流甚至生物科技、天文……大数据催生的数据服务意识和能力,正在影响这个社会的方方面面,从旅游到医疗、政府、教育、经济、人文以及社会的其他各个领域,并催生了了各行各业的变革力量。


      二、不同数据源的优劣比较


      那么旅游大数据对比传统数据到底有哪些不同呢?下表或许会带给我们更进一步的认识。





      三、旅游大数据的优势是什么?




      1.大数据拥有巨大的数据量


      大数据来源于互联网文本数据、OTA数据、用户注册信息、搜索引擎数据等诸多数据源,这些互联网用户行为每天成万上亿次的发生在互联网的各个领域,因此积累了极为庞大的数据量,仅针对景区而言,一年时间便能够回溯百万级用户交易数据,数据规模早已突破原有数据仓库和数据集市的规模,蕴藏了极其丰富的数据价值。


      2.大数据拥有丰富的数据维度


      不同数据源的数据维度存在很大差异,以通信运营商为例,其具有十分庞大的数据量和较高的数据精度,但数据维度相对较少,仅限于用户性别、注册地、年龄、籍贯等信息。相比之下,搜索引擎数据、OTA数据等具有较高的数据维度,不仅包括用户基本属性数据,还包括偏好特征和行为习惯等诸多细化指标,复合以百度地图等LBS数据,能够进行多维度交叉数据分析(切片分析),从而产生更加的数据价值。


      3.大数据抽样时间尺度大、空间范围广


      调查问卷通常集中于数天或数周内,且问卷集中于某一目的地,在时间和空间维度上抽样均存在很大的局限性。旅游行业具有时间波动性、空间异质性特征,不同的时段旅游消费行为存在很大的差异,不同的旅游目的地空间也存在很大的差异,因此,调查问卷存在抽样范围过小的问题。相比之下,旅游大数据能够回溯数天、数月甚至数年的信息,抽样时间和空间都足够大,从而保证数据分析具有很高的可信度。


      4.大数据采集成本较低


      大数据的一个典型特征是数据积累是发生在业务或交易过程当中的,既没有刻意查找和存储数据,大数据往往是平台业务的一个附属产品,因而相较于调查问卷、普查数据等,大数据具有相对较低的采集成本。


      由上可见,旅游大数据比传统数据更有利用和挖掘分析的价值。百度&大地云游大数据画像,基于已经构建的旅游产业数据库和百度50余个在线产品数据,通过用户痕迹复原方法(Utra)对多维数据聚合与挖掘,最大限度上规避了各数据源的弱点,最大程度上保留了大数据分析的优势,从而为旅游景区管理与营销提供坚持的数据基础。


来源:大地云游信息开发有限公司

XML 地图