基于某异性交友APP的小数据分析
前言:
我习惯在包里藏一瓶百无聊赖,打发人间的白云和苍狗,一日百无聊赖的我下载了某款异性交友APP,开始了我的异性交友之旅,尬聊了两天成功率为0的我略感苍白。感觉APP里的小姐姐太优秀了,这样尬聊下去注定要孤独一生,于是就在想是否对这些妹子进行大数据分析一波,分析出妹子的需求,才好对症下药。
1.数据抓取
1.1数据源获取
想法有了,数据该从哪里来呢,这个交友APP是采取匹配机制。无法无限爬取。限制如下
1.非会员每个人一天只能匹配5次。只有匹配到了才能看对方资料。
2.对方匹配到你跟你发起聊天。
3.对方匹配到你的动态评论或者点赞,你才能看到对方的动态。
因为有以上三点限制,每天能爬取的数据就非常少,等爬完这些数据,我又要单身好几年,这是无法容忍的,于是乎我便对这款APP进行了友情测试,发现一个系统BUG,可以把自己匹配的权重调为最优,只要写成脚本,就可以让妹子无时无刻优先匹配对象为你。这样就可以做到人在家中坐,妹从天上来。
下图为跑脚本90分钟的数据量:
于是乎跑了一个星期,共收到了5300+妹子的打招呼,12000+的访问量(本来想截图装逼的,可是手贱把状态值点没了)下面我们就开始爬取数据。
1.2数据选取
既然有了数据源,就到了选取数据的阶段,决定要爬取哪些数据。经过反复分析,我选定了三类数据,并录入数据库。
1.妹子跟我的聊天内容及时间。(也就是妹子打招呼的第一句话)。
2.妹子的动态信息。
3.妹子对我动态评论的信息(这个本文不分析)
4.数据除杂
在数据整理的时候发现这款APP有机器人和真人推广的存在,用于推广股票,贷款之类的产品。所以这一部分数据普遍是没有价值的。
通过分析这些机器人或者人工推广,他们的动态几乎是空的,所以这里把动态为空的认定为废数据,虽然可能会误杀新手用户,但也是没有办法的。我们把这些废数据从数据库内删除。
3. 数据分析
3.1妹子在线频段分析
根据妹子打招呼及动态的时间进行分析,可以得出妹子们一般在哪个时间段出现。
可以从上图看出从4点开始,在线小姐姐人数呈直线上升并在10点达到峰值。这仅仅是打招呼的小姐姐们,按访问频率来换算,每2个匹配到的会点进来看,每3个就会有一个打招呼的话,人数应该再乘6。
周一到周日小姐姐分布图
可以看出周五周六周日为小姐姐们的频繁活动时间,让人意外的是周六没周五高???
3.2妹子对异性打招呼用语
因为本人没学过数据分析只会计数,所以只能计数分析,首先随机挑选样本数据进行分词。
分词之后计数统计
因为数字不太准确,所以用了模糊的数据,还有那个说呸的小姐姐真的很优秀。
3.3动态信息分析
看到好多小姐姐会在动态中写出对对象的要求,这里我们依旧用分词计数分析(其他的我真不会),分词的时候把要求无关的剔除可以得出下表。
看到这些要求我突然觉得电脑为何突然看上去这么眉清目秀?
不过这些要求让我想起了一张图,我简单画一下
TCV=1
我习惯在包里藏一瓶百无聊赖,打发人间的白云和苍狗,一日百无聊赖的我下载了某款异性交友APP,开始了我的异性交友之旅,尬聊了两天成功率为0的我略感苍白。感觉APP里的小姐姐太优秀了,这样尬聊下去注定要孤独一生,于是就在想是否对这些妹子进行大数据分析一波,分析出妹子的需求,才好对症下药。
1.数据抓取
1.1数据源获取
想法有了,数据该从哪里来呢,这个交友APP是采取匹配机制。无法无限爬取。限制如下
1.非会员每个人一天只能匹配5次。只有匹配到了才能看对方资料。
2.对方匹配到你跟你发起聊天。
3.对方匹配到你的动态评论或者点赞,你才能看到对方的动态。
因为有以上三点限制,每天能爬取的数据就非常少,等爬完这些数据,我又要单身好几年,这是无法容忍的,于是乎我便对这款APP进行了友情测试,发现一个系统BUG,可以把自己匹配的权重调为最优,只要写成脚本,就可以让妹子无时无刻优先匹配对象为你。这样就可以做到人在家中坐,妹从天上来。
下图为跑脚本90分钟的数据量:
于是乎跑了一个星期,共收到了5300+妹子的打招呼,12000+的访问量(本来想截图装逼的,可是手贱把状态值点没了)下面我们就开始爬取数据。
1.2数据选取
既然有了数据源,就到了选取数据的阶段,决定要爬取哪些数据。经过反复分析,我选定了三类数据,并录入数据库。
1.妹子跟我的聊天内容及时间。(也就是妹子打招呼的第一句话)。
2.妹子的动态信息。
3.妹子对我动态评论的信息(这个本文不分析)
4.数据除杂
在数据整理的时候发现这款APP有机器人和真人推广的存在,用于推广股票,贷款之类的产品。所以这一部分数据普遍是没有价值的。
通过分析这些机器人或者人工推广,他们的动态几乎是空的,所以这里把动态为空的认定为废数据,虽然可能会误杀新手用户,但也是没有办法的。我们把这些废数据从数据库内删除。
3. 数据分析
3.1妹子在线频段分析
根据妹子打招呼及动态的时间进行分析,可以得出妹子们一般在哪个时间段出现。
可以从上图看出从4点开始,在线小姐姐人数呈直线上升并在10点达到峰值。这仅仅是打招呼的小姐姐们,按访问频率来换算,每2个匹配到的会点进来看,每3个就会有一个打招呼的话,人数应该再乘6。
周一到周日小姐姐分布图
可以看出周五周六周日为小姐姐们的频繁活动时间,让人意外的是周六没周五高???
3.2妹子对异性打招呼用语
因为本人没学过数据分析只会计数,所以只能计数分析,首先随机挑选样本数据进行分词。
分词之后计数统计
因为数字不太准确,所以用了模糊的数据,还有那个说呸的小姐姐真的很优秀。
3.3动态信息分析
看到好多小姐姐会在动态中写出对对象的要求,这里我们依旧用分词计数分析(其他的我真不会),分词的时候把要求无关的剔除可以得出下表。
看到这些要求我突然觉得电脑为何突然看上去这么眉清目秀?
不过这些要求让我想起了一张图,我简单画一下
TCV=1
评论74次
这顿分析让我想起了原谅宝
聊了 聊吐了,攒了一天的小姐姐 晚上统一回复 然后加微信 最后 都被我聊死了
小可爱,在干嘛? 这个资料有年龄和地区吗,可以多几个维度来统计,或者更换不同的头像来实验看看哪个图片xi引的打招呼人多,以后就用它。
啥app 楼主。。
哈哈有意思,楼主绝对是搞爬虫的行家。
建议把bug发出来,让兄弟们试一试。
已经不行了
还没看够,楼主就写完了? 难道没有借此摆脱单身吗?
一番操作以后再次证明,颜值决定一切
所以110和310是啥意思
身份证开头,北京土著和上海土著的象征
所以110和310是啥意思
我还以为你通过聊天 分析数据 然后进去后台匹配权限 调整自己的余额,然后给小姐姐送花 然后就把小姐姐一个个约出来日了 ,结果只是分析人家聊天内容,有点失望。
那个说呸的,哈哈哈
这就属于科班的安全应用了,学以致用,值得提倡
标签老实的,是找接盘的么。
这么多小姐姐撩的过来么?
大佬就是这么优秀
楼主原来就是传说中的 “海王”啊 广撒网 大面积捕捞 hh 可惜呀 你这分析技术实力可以 勾搭技术不行呀
这个文章统计的到位,让我知道要在晚上10点去撩小姐姐
你这只是你的分析结果,我等菜逼想看过程和思路
此等好东西,当然留着自己玩
大佬牛逼了
你这只是你的分析结果,我等菜逼想看过程和思路
此等好东西,当然留着自己玩
那么几千个小姐姐就没照顾下坛里的单身兄弟?都被你聊死了? 要不再爬一遍用户头像, 把漂亮的排序一下
比起这个我更好奇bug是怎么发现的,以及怎么利用的
你这只是你的分析结果,我等菜逼想看过程和思路