必发bifa88手机客服端口碑商行客流量预测

必发bifa88手机客服端 1

IJCAI-17
口碑商户客流量预测
               第 1 赛季截至日期          2017/03/14

 

赛制介绍

最主要时间
六月十七日 08:00: 评测运行
六月二二十七日 10:00: 报名截止&队伍容貌融合截止
七月二十八日16:00: 更新评测集
3月14日 16:00: 末尾几次测评触发  & 比赛截至
7月十日 23:59: 代码 & 解题思路提交停止
六月十四日 10:00: 赢球阵容颁发

参赛对象
面向全社会开放,高等院校、科研单位、网络公司等人口均可报名参赛。
注:大赛主办和一起单位,以及有空子接触赛题背景业务及数据的职工,则自动退出比赛,放弃参赛资格;
阿里Baba(Alibaba)集团、蚂蚁金服、菜鸟的员工参赛,可加入排名,但不足领取奖金。

组队规则
参赛队容得以是单人组队或自由组合,但最多不超过四个人。二月17日10:00后将不再允许阵容的融合/拆分。
注:
① 、每人只可以在场一支部队;
② 、有限支撑参赛队员报名新闻准确实用,不得利用中号,否则会被打消参赛资格及刺激;
③ 、报名方法:用Taobao或Ali云账号登入官网,完结个人新闻注册,即可申请参赛。

评测
四月25日-8月31日:评测将在天天的8:00,
16:00 和24:00 触发 。评测触发前可反复提交,新本子将覆盖原版本;
7月十三日-7月二十六日:评测将在天天的16:00 触发,评测触发前可反复付给,新本子将覆盖原版本;

最终线上成绩与名次以7月三十一日16:00排名榜成绩与排行为准;

奖项设置及刺激
冠军:1支队伍,USD 10,000
亚军:1支队伍,USD 6,000 
季军:1支队伍,USD 4,000
特别奖:2支队伍容貌,USD 4,000
/队 (该奖项面向top20 内的队容开放,作为参会差旅赞助提供,大家将基于提交的素材举行采取:代码+解题思路+英文presentation资料)
最具潜力奖:价值3000欧元的奖学金 
大赛教育合作方优达学城,将为被评为“最具潜力”的部队提供价值超越3000欧元的奖学金,可用以学习由 谷歌、非死不可、亚马逊(亚马逊(Amazon))等硅谷行业管事人推出的人造智能、机器学习、数据科学学习认证项目。
阳光普照奖:全部选手拿到价值500元的新妇子学习红包
大赛教育协作方优达学城将为拥有报名成功的用户,提供价值约500元的新人学习红包,可用于抵扣第一回投入 谷歌、脸书、亚马逊等硅谷行业负责人推出的人为智能、机器学习、数据科学等学习认证项目时的学习成本。(仅可用来优达学城中国区网站 cn.udacity.com。)

Top
3 队容将取得3,000泰铢/队的差旅赞助,前往于七月份在利雅得设置的IJCAI-17主会.

积分发放: 在比赛前冒出过成绩的行伍,依照名次榜最后排行,按天池积分公式得到对应积分 
粮票发放: 在较量中冒出过战绩的武装,依照名次榜最后名次得到对应粮票:
第1-10名队伍:11000粮票 
第11-50名队伍:2500粮票 
第51-100名队伍:1200粮票

 

口碑商行客流量估算

背景 Background

乘势移动定位服务的风行,阿里巴巴(Alibaba)和蚂蚁金服逐步积淀了来自用户和商店的海量线上线下交易数据。蚂蚁金服的O2O平台“口碑”用那个数量为同盟社提供了包涵交易计算,销售分析和行销提出等定制的后端商业智能服务。举例来说,口碑致力于为每一种公司提供销售预测。基于预测结果,商户可以优化运行,下降本钱,并立异用户体验。
本次竞技前,大家将以适合定义的行销估算难题为题。
我们鼓励立异的解法,协助口碑成为进一步智能的商贸平台,更好地劳动社会。同时,希望各位参赛选手都能分享到这一次比赛带来的童趣。

问题 Statement

前瞻客户流量对集团的经营管理主要。在贺词平台上,大家将客户流量定义为“单位时间内在专营商采取支付宝消费的用户人次”。在那个标题中,大家将提供用户的浏览和支出历史,以及集团相关新闻,并期待参赛选手可以以此预测全部商行在接下去14天内,每一日的客户流量。
咱俩鼓励参赛选手使用类似天气等额外的多寡,并期望参赛选手可以将数据源共享在论坛中。

评测 Evaluation

在这一次竞技后,每只阵容须要预测测试集中具有商店在以后14天(二〇一五.11.01-二〇一六.11.14)内独家每一天(00:00:00-23:59:59)的客户流量。预测结果为非负整数。
必发bifa88手机客服端 2

数据 Data

小编们提供从二〇一四.07.01到二零一四.10.31(除去二零一五.12.12)的店铺数量,用户支付行为数据以及用户浏览行为数据。提供数据的类型统一为string类型,提交预测的门类为整形。文件统一为utf-8编码,没有题目行,并以“,”分隔的csv格式。
   1. shop_info:商行特色数据

Field

Sample

Description

shop_id

000001

商家id

city_name

北京

市名

location_id

001

所在位置编号,位置接近的商家具有相同的编号

per_pay

3

人均消费(数值越大消费越高)

score

1

评分(数值越大评分越高)

comment_cnt

2

评论数(数值越大评论数越多)

shop_level

1

门店等级(数值越大门店等级越高)

cate_1_name

美食

一级品类名称

cate_2_name

小吃

二级分类名称

cate_3_name

其他小吃

三级分类名称

2.     user_pay:用户支骑行为

Field

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 11:00:00

支付时间

3.     user_view:用户浏览行为

Field

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 10:00:00

浏览时间

4.     prediction:测试集与付出格式

Field

Sample

Description

shop_id

000001

商家id

day_1

25.1

第1天的预测值( 需要选手提供)

day_2

3.55555

第2天的预测值(需要选手提供)

……

 

 

day_14

1024.0

第14天的预测值( 需要选手提供)

 

FAQ

1.Q:time_stamp的编码格式? A:全体时间统一为“yyyy-mm-dd
hh:mi:ss”格式。其中yyyy表示年,mm表示月,dd表示日,hh代表小时,mi代表分钟,ss表示秒。

2.Q:空值的意味方法? A:数据文件中,几个逗号间没有内容即表示该属性为空。例如,“2,圣佩德罗苏拉,64,19,,,1,超市便利店,超市,” 对应为:

Field

Sample

shop_id

2

city_name

哈尔滨

location_id

64

per_pay

19

score

NULL

comment_cnt

NULL

shop_level

1

cate_1_name

超市便利店

cate_2_name

超市

cate_3_name

NULL

3.Q:空值的意思?
A:score,comment_cnt属性的空值代表没有人开展过评分或臧否。cate_3_name属性的空值代表不存在第二级分类。

4.Q:文件的编码格局?
必发bifa88手机客服端,A:全数文件均运用UTF-8编码。

5.Q:提交结果后Loss突显为NaN?
A:NaN代表你的交给存在不当。请检查提交文件内容的完整性,以及格式的正确。可以参照prediction_example.csv的格式。
率先请确认shop_id是或不是科学。shop_id应该为1至2000的整数值。缺少或越发的shop_id都会造成提交错误。
资助请确认预测结果格式是或不是科学。预测结果应为非负整数,而且不只怕为空。

6.Q:假如实在客户流量为0,提交预测结果也为0,则loss为?
A:Loss定义为0。

7.Q:数据时间段的难点?
A:user_pay表的切实数额时间范围是二零一五-06-26 06:00:00至贰零壹陆-10-31
23:00:00。
user_view表的现实性数额时间限定是二〇一六-06-22 00:00:00至二〇一四-10-31
23:00:00。
extra_user_view是额外提供的用户浏览数据,其数据结构同user_view表相同,其现实数据时间范围是二〇一五-02-01
00:00:00至二零一六-06-21 23:00:00。
user_pay表中,存在一些商行在某一时半刻间区间内并未用户支骑行为的情形。那是由于该商户在该时间段因有些原因并未正规经营导致的。

我们保险在展望区间二〇一五.11.01-二零一四.11.14内,全部公司都在常规经营。

8.Q:数据的详细描述?
A:user_pay表是用户线下(非外卖消费,是到店消费)前往口碑店铺使用支付宝进行开销的记录。
user_view表是用户线上在口碑平台浏览商家暴发的记录。浏览行为教导击进入公司详情页浏览的行事。
shop_info中,处于同二个location_id的店铺相互距离小于2km,而且location_id本人并未实际意义。
shop_level是口碑平台对集团规模的三个夸夸其谈目的,例如个体餐饮商户的门店等级紧跟于大型全国有关的营业所。

9.Q:即使3个用户在一天内在某商户里支付了1回,那么客户流量算2依然1?
A:2。每回支付算三遍做客户流量。

10.Q:数据共享的标题?
A:首先,数据渠道必须明白,处理思路也要讲述。其次,是不是上传具体分析。
比喻来说:
处理过的当众爬取的数码最后需上传提交,是不是在论坛公开由参赛者自行决定。
设若应用付费数据,不必上传,也不用公开。只要表明来源和处理思路即可。

 

处理思路:

一 、目的:预测 全数公司 (3000家)在二〇一五.11.01-2015.11.14(14天)内
各自每一天(00:00:00-23:59:59)的客户流量。预测结果为非负整数。

必发bifa88手机客服端 3

累计三千行,每行第1列A代表shop_id卖家的id,第一列B到第⑧五列O代表将来14天,每日的客流量

 

二 、知道要做什么了,然后先导起始做,第1步:旁观先用的数据集

1. shop_info:商行特色数据

Field

Sample

Description

shop_id

000001

商家id

city_name

北京

市名

location_id

001

所在位置编号,位置接近的商家具有相同的编号

per_pay

3

人均消费(数值越大消费越高)

score

1

评分(数值越大评分越高)

comment_cnt

2

评论数(数值越大评论数越多)

shop_level

1

门店等级(数值越大门店等级越高)

cate_1_name

美食

一级品类名称

cate_2_name

小吃

二级分类名称

cate_3_name

其他小吃

三级分类名称

2.     user_pay:用户支骑行为

Field

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 11:00:00

支付时间

3.     user_view:用户浏览行为

Field

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 10:00:00

浏览时间

 

今后有那两个表,多少个是商人特征数据,八个是用户支骑行为,还有三个是用户浏览行为

察觉没有最主要的 label 客户流量 

所以未来先是应当处理数据

我们前几天想清楚的是:

壹 、三千 家 商行 在 二〇一六.07.01 –
二零一六.10.31 每一天有些许个用户发生支付行为?

② 、影响开发多少相当于客户流量的缘故是如何?

三 、有了地方的多寡,要把那一个数据分为磨炼集、验证集、测试集

四 、预测 两千 家卖家 在 2014.11.01 –
二〇一六.11.14(14天)天天的客户流量

 

那么先拍卖第三个难题,怎么把2000家 专营商 在2015.07.01 –
二〇一四.10.31的客流量计算出来

 

 影响开发多少相当于客户流量的由来是怎么?

Well, when we initialize a neural network, we don’t know what
information will be most important in making a decision.

It’s up to the neural network to learn for itself which data is most
important and adjust how it considers that data.

 It does this with something called weights.

 

据悉公司的特点数据的例外权重,单个人会不会选拔支付消费是足以经过深度学习来成功的,

The sigmoid function is bounded between 0 and 1, and as an output can be
interpreted as a probability for success.

收获壹个可能率,比如壹位大概会有四分三的人会采取,就是邻近有九十八个浏览量,可以对应会有柒拾9个支付量吗?

再有二个标题,是会有稍许人来选拔呢 

那边涉及到那个集团的地理地点紧邻有微微人,依照浏览量,可以判明出大约总人数,依照支付人数,

可以规定大约比例 = =~(那样想对不对?)

 

周健%20&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight%3Dperson)曹瑞霞%20&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight%3Dperson)王兆卫%20&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_hilight%3Dperson)的餐饮业长时间客流量估算方法 
 文中一些摘要:

餐饮行业客流猜想属于时间体系短时间预测,对
于短时间预测,目前任重先生而道远利用时间种类分析法和反向
盛传(back
propagation,BP)神经网络预测方法[4-5].
客流系统是一个有人加入、时变、复杂、具有莫大不
一目精通的非线性系统,因而很难建立合适的数学模
型.正如文献[63提议,由于饮食客流变化趋势是非
线性的,建立有关数学模型非常拮据,由此使用时间
队列分析建模方法对系统行为的纯粹预测效果也难
以让人满足.而神经网络作为1个富有较强的鲁棒
性和容错能力的非线性动态系统,对多成分非线性
的展望难题有所很好的适用性,并能得到较为规范
的预测结果[7{].神经网络利用的底蕴是兼具丰富、
使得的样本.而对此餐饮业来说可以根据过去的服
务意况记录大批量和真正的样本来满足这一原则.但
是,由于影响就餐客流的因素相对较多,并且很多因
素之间存在耦合关系.因而,针对一些具体影响条件
下的样本量却不足以对神经互联网举行实用的练习,
致使了那几个情形下的客流臆度精度偏差较大.
桔黄一马尔可夫链系统理论[1¨1]是一种研讨少
数码、贫新闻、不分明性难点的新方法.棕色系统预
测适用于数据较少但系统状态为主两次三番条件下的预
测难点.根据过去的多少可见,在一些状态下,即便
野史样本不丰盛,但系统状态为主是接连的,因此可
以举办数量丰盛性不足处境下的客流预测.

按照反向传播神经互联网的餐饮客流量猜想模型
(1)练习样本的规定与处理.练习样本的抉择在
于其不易和准确性,样本数据分布越均匀、数据规
模越大,精度越高.故选取大样本项目作为练习数
据.其它,为监察练习进度,使之不爆发“过拟合”现
象,并越发评论所建模型的习性和泛化能力,把样
本集按70%,15%和15%的比例分成陶冶样本、验
证样本和视察样本.其余,由于神经互连网的绝半数以上就学
算法不可以适应很宽的多寡变化范围,因此要求对样
本举行归一化处理.
(2)神经网络的输入、输出.通过对影响客流量
的因素分析,选用星期、天气和寒暑假那二个要素作
为神经互联网的输人,日客流量作为出口,即神经互连网
的输入层拥有二个节点,输出层拥有一个节点.
(3)隐含层及带有层节点数的显然.现有理论证
贝拉米个3层BP神经网络能以自由精度逼近任何非
线性函数,故选择壹个3层BP模型用于预测.隐含
层节点数的分明是神经互联网设计中杰出重大的一
环,隐含层节点数往往依据设计所得经验和进展试
验来分明.通过神经网络陶冶来规定隐含层的节点
数:首先依据经验公式(1)分明隐含层节点数目标范
围;其次设计一个含有层神经元数目可变的BP网
络,通过3种样本误差和相关全面的对待显然最佳
的隐含层结点数目n1
    n1 =
√(n+m) + a0      (1)
式中:以为输入层节点数目;m为输出层节点数目;
a0为o~10里面的任意常数.
(4)陶冶函数及陶冶参数的分明.由于
Levenberg-Marquardt算法具有收敛速度快、所占内
存小和教练结果好的助益,采纳磨练函数trainlm;
系统学习进度的平安受学习率的影响,为保险学
习进程的收敛性,选择较小的学习率;由于在神经网
络模型训练进程中,对有限的样本进行数十次练习可
能会招致网络过拟合现象,由此在骨子里模型练习中
使用设定最大迭代次数和教练目的来避免.
(5)练习互联网,营造面向餐饮客流的预测模型.

 

必发bifa88手机客服端 4

 

 

① 、使用Navicat for MySQL 处理多少,先总括每家店天天的流量

–>对表user_pay:用户支付行为  –>  操作

Field

 

Sample

Description

user_id

0000000001

用户id

shop_id

000001

商家id,与shop_info对应

time_stamp

2015-10-10 11:00:00

支付时间

select study.shop_id,left(study.time_stamp,10),count(*)
from study
group by  study.shop_id,left(study.time_stamp,10)

必发bifa88手机客服端 5

 

二 、使用Navicat for MySQL处理多少,把日子与星期对应起来

DayOfWeek() 对于多少个日子,重回对应的星期几,

1象征周六,2代表礼拜六,3代表星期四,4意味着星期天,5意味着礼拜一,6意味着礼拜日,7意味星期五;

示例:

 SELECT DayOfWeek('2016-01-01');  

结果为:

+-------------------------+
| dayofweek('2016-01-01') |
+-------------------------+
|                       6 |
+-------------------------+
1 row in set (0.00 sec)

DayName() 重回一个日期对应的星期几的英文名

示例:

SELECT DayName('2016-01-01');  

结果为:

+-----------------------+
| dayname('2016-01-01') |
+-----------------------+
| Friday                |
+-----------------------+
1 row in set (0.00 sec)

 

SELECT
user_pay_count.shop_id,
user_pay_count.time_stamp,
DayOfWeek(user_pay_count.time_stamp) AS week,
user_pay_count.count
FROM
user_pay_count

必发bifa88手机客服端 6

 

三 、使用EXCEL处理数据,添加日期对应的节日

采用辅表:

节日假期 调整工作日
2015/1/1 2015/1/4
2015/1/2  
2015/1/3  
 2015/2/18 2015/2/15
 2015/2/19 2015/2/28
2015/2/20  
2015/2/21  
 2015/2/22  
 2015/2/23  
 2015/2/24  
2015/4/4  
2015/4/5  
2015/4/6  
2015/5/1  
2015/5/2  
2015/5/3  
2015/6/20  
2015/6/21  
2015/6/22  
2015/9/26  
2015/9/27  
2015/10/1 2015/10/10
2015/10/2  
2015/10/3  
2015/10/4  
2015/10/5  
2015/10/6  
2015/10/7  
2016/1/1 2016/1/4
2016/1/2  
2016/1/3  
2016/2/7 2016/2/6
2016/2/8 2016/2/14
2016/2/9  
2016/2/10  
2016/2/11  
2016/2/12  
2016/2/13  
2016/4/3 2016/4/2
2016/4/4  
2016/4/5  
2016/5/1 2016/4/30
2016/5/2  
2016/5/3  
2016/6/9 2016/6/12
2016/6/10  
2016/6/11  
2016/9/15 2016/9/18
2016/9/16  
2016/9/17  
2016/10/1 2016/10/8
2016/10/2 2016/10/9
2016/10/3  
2016/10/4  
2016/10/5  
2016/10/6  
2016/10/7  

报表所列是国务院办公厅公布的2016年和二零一五年节日假日和调整工作日的陈设。

名词解释:

节沐日假日——法定节日放假的日子。

调动工作日——本来是周一双休日,但因节日假日的布局而调整为工作日。

 

近年来我们来分析一下,3个日子是休息日须要满意上边八个原则之一:

  1. 是节日沐日 

  2. 是周二还要不是调整工作日

换言之,多少个尺码一旦满意贰个就是休息日,就算多少个都不满足,就是工作日。

用Excel函数表述是这么:

if(是节日,”休息日”,if(是星期二,if(不是调整工作日,”休息日”,”工作日”),”工作日”))

 

判断壹个日子是不是为周末(星期二 、周六)可以用weekday()函数:

=if(weekday(today(),2)>=6,”周末”,”不是周末”)

唯独要判断一个日期是不是为休息日,就要复杂一些,因为要涉及到官方节日、调休和调整工作日等。

 

倘诺要一口咬住不放的日期放在B1单元格。上边表述中多个标准:“是节日沐日”、“是星期五”、“不是调整工作日”分别用函数代替。

是节日假日(在I列中能找到B1的值)–COUNTIF(I:I,B1)>=1

是周末(是七日中的第⑤或第⑩天)–WEEKDAY(B1,2)>=6

不是调动工作日(在J列中找不到B1的值)–COUNTIF(J:J,B1)=0

最终的公式如下:

=IF(COUNTIF(I:I,B1)>=1,”节假日”,IF(WEEKDAY(B1,2)>=6,IF(COUNTIF(J:J,B1)=0,”周末”,”工作日”),”工作日”))

把公式复制到要填写的单元格里。

然后采用shift、ctrl+c和ctrl+v 火速复制单元格(带填充格式)

必发bifa88手机客服端 7

因为大家最后要推断的是二零一五.11.01 –
二〇一五.11.14(14天)每日的客户流量

既不是寒假也不是暑假,所以,先可以毫无考虑那些因素,

有上边随想提及:固然星期、天气、节假期、寒暑假那5个要素均对客流量影响显著,

但客流量随着星期和回想日那五个成分水平的变化起伏较大。

就此大家得以先采取那五个因向来品尝下

 

 

 

 

 

 

 

相关文章