一、大数据ABC
2. 美国“大数据”事业发展
大数据(BIG DATA)是指所涉及到的数据量规模巨大到无法通过人工在合理时间内达到获取、管理、处理、并整理成为人类所能解读的信息。
5. 大数据4V特性
花样多、体量大、速度快、价值高
6. 数据从哪来?
数据来源主要从以下四个渠道:
互联网公司(BAT等)
通信运营商(移动、联通、电信)
金融、酒店、医疗、电力等行业
物联网、传感器等
7. 大数据商业价值
8. 大数据的行业应用
大数据在各个行业上的应用都很广泛,举几个例子:
大数据的应用几乎覆盖了所有行业,企业、娱乐、电商、政府、医疗等等,这些大数据往往只是基于互联网,但我们不应摒弃传统数据,那些基于数据统计、问卷调查、用户访谈、人工统计、遥感影像、地图测绘等渠道获得的传统数据同样具有价值,要将传统数据与大数据相结合。
二、 大数据时代的旅游业
旅游行业有行业广、规模大、移动性强的特点,因此更加依赖大数据。当前,旅游业也在“新常态”下迎来了升级的挑战和变革的机遇,新常态对于一般的经济部门是经济速度放慢、人均GDP增速减小,很多传统行业在调整结构,但新常态对旅游行业却是速度加快的。
对大数据来讲,和旅游业产业的密切配合主要体现在以下几个方面:
(1)景区票务系统可统计游客量数据,通过与互联网、运营商等第三方大数据整合,可对未来几天人流量、车流量进行预测;
(2) 智慧景区监控系统可对突发事件如踩踏、拥挤进行实时监测,及时预警;
(3)通过监控系统及数据分析,对景区人力、物力资源进行科学分配,并加强市场违规行为管理
(4) 通过景区一卡通系统,可以对游客的属性、行为偏好进行分析,同时整合互联网大数据,可以针对全国市场范围进行客源地与目标消费者的精准定位;
三、 为旅游分析大数据
数据分析共五个流程:数据获取→预处理→综合分析(数据模型)→成果可视化→对策应用
(1)数据获取:游前、游中、游后全过程的大数据获取,传统数据和大数据相结合。
(2)综合分析(数据模型):将数据预处理后,进行数模分析,例如将过去五年的五一黄金周游客的来源和过去五年景区的销售记录建成数据模型,根据模型预测明年甚至后年的游客量、游客从哪来?这对于市场非常重要,可以根据这些特点对症下药。
(3)对策应用
(4) 景区对大数据应用的困境
(5)景区对大数据应用的解决之道
四、 为景区生产数据产品
随着“互联网+”时代的到来,包括旅游业在内的传统行业迎来了一次大变革。大地云游多年深耕于旅游行业,基于宏观经济、旅游产业、遥感及GIS数据等构建了庞大的数据库,并同百度等大数据企业开展深度跨界合作,整合了包括百度搜索引擎、百度地图、百度糯米等50条产品线的上亿用户量的数据,双方共同开发了旅游行业的大数据产品——“景区大数据画像”。
百度大数据和大地云游两家共同合作,提出一套理论叫做用户痕迹复原分析法。用户痕迹复原分析法,它的作用一是能够把握景区发展外部环境与市场导向,洞察游客基本属性与行为特征,精准分析游客旅游路线,实时监控景区游客量。二是为城市及景区实现旅游市场细分、旅游营销诊断、景区精准管理提供有力工具。
景区自己搞大数据是比较困难的,存在着数据获取困难、寄存存储困难、分析方法不了解等问题,未来的发展方向应该是景区收集内部的小数据然后和专业公司合作,用大数据、小数据、大小结合提出一个整套的方案,景区自身要注重线下数据积累,建立流行化平台,建立一个数据中心,和数据专家沟通,提出一套适合自身景区的方案。这适用于所有旅游局、旅游景区、酒店旅行社等,都可以做这样的旅游分析的报告用来帮助景区定位、分析、营销、提高景区投入回报率。
怎么为景区数据生产?用旅游专业的知识和经济框架,用百度大数据包括百度搜索引擎、百度地图、百度糯米等上亿用户量的数据,以景区为案例和景区大数据框架。
数据有两种来源,一种是我们过去积累的传统数据,如区域经济数据、遥感数据、GIS数据,另一种是游客微观数据,包括百度大数据及新浪微博等,使用用户痕迹复原分析法将景区四方面情况把它展现出来,这样的一套诊断工具、管理工具、营销工具、可以为景区提供规划、发展之路。
大地云游旅游数据库包括:
(1)区域经济数据
全国各地级市的旅游产业数据,包括旅游收入、游客量、出入境旅游人次、人口、GDP、财政收入、居民收入水平、居民消费能力等等; (2)遥感卫星数据
包括EOS卫星、Landsat卫星数据、全国DEM地形数据等;
(3)GIS数据
全国各县、各地级市、交通路网(包括高速路、国道、省道、铁路等)、全国机场、旅游景点等的GIS数据;
(4)气象数据
全国各监测站近30年的707个气象监测站的数据,包括各月气温(℃)、相对湿度(%)、日照时数(h/d)、平均风速(m/s)等。
游客微观数据库包括:
(1)百度搜索
作为全球最大的中文搜索引擎,百度每天响应超过100亿次来自电脑手机的搜索请求,为超过全国95%的网民发现答案,提供所需;
(2)百度地图百度地图每天响应超过100亿次定位请求,基于百度地图定位数据,可以对游客轨迹进行精准刻画;
(3)百度用户画像
基于百度超过50条产品线数据以及海量外部线上线下数据进行深度挖掘,从人口的自然、社会、地理位置属性和兴趣关注等维度,以及医疗、教育、旅游等32个垂直行业细分万级别标签,全方位刻画用户属性偏好,采用最高精度算法和最全多屏用户数据,覆盖国内超过4亿用户,采用DNN深度学习、规则与统计分析、WordVec等挖掘算法,挖掘结果准确率大于90%;
(4)新浪微博
用户在新浪微博的评论及签到数据。
案例研究:武夷山旅游景区
将大地云游数据库中全国345个地级市(含省直辖县)统计数据、GIS数据与遥感数据进行整合;百度数据的采集时间为2015年1月1日至2015年4月7日,来过武夷山和福建的游客,数据规模为2000万游客数据;微博数据采集时间为2014年9月23日至10月8日(含十一黄金周),10000余条新浪微博记录建立一个分析体系。
这个分析体系可以给景区外部环境分析、客源市场分析、旅客量预测、景区热力图、市场气氛、关联景区分析、也就是这批游客到了武夷山同时还玩了哪几个景区,几个景区就可以一起做区域合作、做共同营销,这是有数据基础的。分别对武夷山景区进行外部环境分析和客源地及市场洼地探析。
1. 外部环境分析
武夷山外部环境分析—旅游发展阶段:以武夷山为中心的周边地区,包括长三角、福建、珠三角等,已经进入观光与休闲旅游多元化阶段。
这是由于武夷山景区有较适宜的外部环境,包括:
2. 客源地及市场洼地探析
从客源市场角度来讲,通过大数据对武夷山客源地分析,根据百度地图LBS定位,2015年1月1日至2015年4月7日到达武夷山的游客数据总量70万人次的记录量。可以判断客源地的来源,客源地以福建本省居民居多,其次是上海、浙江、江西等较近旅游市场。客源城市排名依次为:南平、福州、厦门、北京、上海、泉州、杭州、上饶、温州、三明、广州、苏州、漳州、深圳、金华、宁德、沈阳、郑州、无锡、莆田。通过这些客观的数据可以有针对性的进行区域宣传。
通过百度可以统计出过去三个月中全国人民哪些区域搜索武夷山的关键词,最集中的搜索量依次是南平市、福州市、厦门市、北京市、泉州市、上海市、杭州市、广州市等对武夷山搜索量较高。但搜索量高却没有到武夷山来,这就是客源漏损指数,客源漏损指数是通过游客实际到访量与搜索量计算得来。漏损指数较高城市依次是南通、成都、合肥、临沂、扬州、揭阳、天津、石家庄。对漏损原因进行深度分析作为重点突破。
省内竞争指数:某一城市到访武夷山游客量与到访福建省游客量之比。省内竞争指数较低城市:南宁、赣州、重庆、深圳、揭阳、惠州、珠海、合肥、东莞、广州、海口(这些地区来福建游客到武夷山之外的福建旅游城市较多)。省内竞争指数较高城市:衢州、丽水、上饶、承德、张家口、牡丹江、金华、鞍山、邯郸、东营(这些地区来福建游客到武夷山人数较其他福建城市为多)。
3. 景区游客量预测
百度对九寨沟做过一个研究,游客从哪几个城市会飞到九寨沟来?游客会乘坐什么交通工具?各个客源地城市游客的数量有多少?百度大数据可以预测。
华北、西北、东北地区游客量与逗留时长之间呈现明显的U型曲线,较长时间滞留游客比例较大,华中、华南、西南等地游客逗留时长不够高。
与百度旅游网民数据相比,武夷山游客中女性游客占比要高于百度旅游网民中女性比重,表明女性相对男性对武夷山更为青睐。
本科及以上学历的游客占游客总量的61%,表明学历层次较高的游客对武夷山景区颇为青睐,同时,百度对更精细的学历层次正在研发中,即将推出。
文体娱乐、IT通信、医药卫生、住宿旅游等职业的游客在武夷山总游客量中占比最高,与百度旅游网民相比,文体娱乐、IT通信、医药卫生等职业的游客对武夷山更为青睐。
武夷山游客中有车的游客占比32%,高于全体国民中有车人士占比,表明在产品开发方面,武夷山景区可针对自驾车游客策划自驾车营地项目等;
武夷山游客对社交、网购、旅游、金融财经等兴趣较高,在制定营销策略时,可以针对社交性的媒体、网购类网站、旅游类网站等选择合适的营销渠道;
青年旅舍在80、90后游客中占比最高,深受青年人的喜爱;快捷酒店以其标准化、高性价比的服务对商务人群、学生群体吸引力较大,品牌忠诚度较高;
景点关注度:游客对天游峰、九曲溪、一线天、水帘洞、大王峰、玉女峰、虎啸岩、龙川等景点的关注度最高,表明这些景点的品牌知名度较高。
外地游客来武夷山旅游的同时,还去鼓浪屿、左海公园、福建土楼、燕尾山公园、胡里山炮台等景点旅游,鼓浪屿是外地游客去福建省旅游的主要旅游目的地之一。
(1)微博语义分析:游客所发微博内容主要围绕“武夷山”、“旅行”和“红袍”三个关键词展开。其中“旅行”、“竹筏”、“漂流”等关键词代表游客对这类旅游项目关注度较高;“红袍”、“茶叶”、“喝茶”代表游客对于武夷山当地茶叶特产的关注度较高。
(2)微博情绪分析:通过数据挖掘,对微博内容进行情绪语义分析,并将其分为积极、中性和消极三类,其中积极情绪占比最高,占比达57%,消极情绪占比最低,总体来看,游客对武夷山的印象以积极正面为主。
武夷山景区改进策略:
五、 从非移动景区到移动旅游目的地
过去旅游产品是旅游到什么地方去,景区是不可以移动的,在旅游学教科书里是这样强调的。但是在如今的大数据时代,在移动互联网时代,在移动知识时代,你的旅游目的地要变成移动目的地,也就是说从非移动地区到移动旅游目的地的一个变化。
(4)移动性(mobility)控制一切
(5)移动中的社交媒体及其对品牌影响
现在全球的旅游研究当中,最核心的是移动性研究,不是简单的信息、交通,而是人本身的移动,根据移动的特征进行景区的管理。移动性需要靠大数据来研究,景区移动性、大数据、移动旅游目的地、这些逻辑关系是非常清晰的,我们过去的游客中心就是放几个地图,两个景区工作人员介绍,而现在的大数据时代把他变成非移动和移动的交接点,这时的游客中心就要进行非常彻底的改造。移动性的管理,拥挤、地质灾害、警告、检测都是要动态的。建议地方政府要把wifi免费。
结论
(1)“互联网+”时代,大数据促进旅游产业转型升级
(2) 旅游大数据的应用价值在于多数据源的整合
(3)旅游大数据指导景区管理已初见成效
(4) 如何进一步提升旅游大数据效用仍然任重而道远
(5)移动互联网时代,景区已经不再静止不移
(内容由im电竞官网研究院根据吴必虎教授在“第十届全国旅游景区创A培训班”演讲内容整理,技术支持来自大地云游。)