时时勤拂拭,勿使惹尘埃

TOC

Categories

iOS(十一)三方市场ipa采集分析


一、采集方式分析
以pp助手市场为例,官网地址:
在pp助手网站不支持直接下载iOS app,需要通过助手应用来下载
故采用分析助手方式来获取app下载url
另外一般市场没有提供类似cydia源Packages信息,故平台采集市场都是根据市场应用列表来爬取app的

二、pp助手市场app列表

在市场"软件“一栏可以看见有应用"推荐、分类、排行、必备”几项,其中排行app较少,需要完整app list,建议从“推荐” or “分类”获取
  

三、抓包分析

1、ipa文件url

从pp助手下载ipa文件,以下为同一个ipa(find and call),但是从两个域名获取:
http://r10.25pp.com
http://or.25pp.com
直接访问这两个域名及子目录皆403 Forbidden,只能访问对应ipa具体url
url结构比较容易理解,其中20120615应该是app上传到市场的时间,但ipa后面部分的数字意义不明,无法构造
故直接爬取下载站点方式不可行

2、App推荐列表

访问推荐页面时,会给http://mobileup.25pp.com/index.php提交post请求,该网站直接访问会无响应:
post内容如下,开头应该是访问的内容参数,中间数字为特定格式,最后为设备型号:
之后服务器就会反馈App列表推荐页面的app信息了,从中可以解析出各个app的下载url:

3、more

一次post只能获取少量app信息,往下拉刷新会有更多app,其中有一个位用来设定反馈的结果:
其参数用16进制标示:
“推荐”一栏中只有17页app信息:

四、采集建议

由于一般市场推荐app不一定全面覆盖该市场所有app,故建议从分类栏获取app list:
  • 影音娱乐:其中第一框为该分类,第二框为app list页面
  • 社交通信:post其他内容不变,只有分类位变化
  • 生活购物
  • 系统工具
  • 阅读学习
  • 出行导航
  • 摄影美化
  • 办公理财
  • 运动健康

五、小结

ipa三方市场应该基本都是类似方式,只有app store由于使用ssl以及对app加密故不适用
平台爬取可以根据上述内容中对分类列表一一构造数据post,从反馈app list来获取url

0 评论:

发表评论