1. 揭秘2.5亿用户的美团智能推荐平台是如何构建的?

    本文是《美团机器学习实践》的第10章:《推荐在O2O场景中的应用》。美团首页推荐将酒店商家、外卖商家、电影院等混合推荐;美团详细页面推荐包括:附近商家推荐和相关商家推荐。

    美团推荐场景特点:

    • 地理位置因素:特别是对于美食、酒店、外卖等业务,用户倾向于使用附近商家的服务。

      • KD-Tree索引:以当前位置为圆心,可以快速检索出指定距离范围内的商家和服务。优点是精确度高。
      • GeoHash索引:对区域进行正方形和六边形的划分,快速找出GeoHash范围内的商家和服务。缺点是精度不太高,如果当前实时位置在区域边沿,这个位置可能与另一个邻接GeoHash内商家和服务的距离会更近。
      • 热门商圈索引:商圈索引检索的粒度相对粗一些,但是比较符合人生活中的实际经验,比如北京的五道口商圈、国贸商圈等。将商家和服务按照商圈的维度组织起来,可以使得我们能够给用户推荐感兴趣的同商圈内容。
      • 城市维度索引:它可以用来检索一些与地理位置关系不大的内容,例如景点等。另外,用户没有地理位置信息时,只能通过城市维度索引去检索出相关内容。
    • 用户历史行为:新闻或者咨询推荐,用户看一次了解这些信息之后,就不会再去读第二遍。与新闻推荐不同,一家味道好的店,用户可能会反复光顾。从具体的数据来看,大量用户会产生重复点击和重复购买的行为。

      实际应用会结合用户的活跃度和行为的类别来做相应的截断。例如,较活跃的用户会保留时间较短的行为,不太活跃的用户保留时间更长一些的行为。常用的方法有两个:(1)以一个时间段为界限:保留这一个时间段里的所有行为,比如3个月、1年等;(2)以固定数量保留用户的行为:比如100条,当有新的行为加入时,去掉最旧的行为,这比较类似于队列先进先出的数据结构。

    • 实时推荐: 一是地理位置,推荐需要考虑用户的实时位置。二是O2O场景的即时消费性,例如美食、外卖、电影等都是高频消费,用户从考虑到最终下单之间间隔时间非常短,所以推荐必须要实时,并且根据用户的实时反馈调整推荐的内容。

      线上使用的推荐的实时性主要有召回的实时性、特征的实时性】排序模型的实时性。

      • 召回的实时性:用户有过行为的内容会实时反馈到推荐系统中,与之相似的内容会加入到新的推荐中去。
      • 特征的实时性:用户对相关商家和服务的行为,除了用于召回,也会用于更新用户排序特征。排序特征中有一些关于相关行为的统计量,会在线实时更新,直接影响排序的得分。
      • 排序模型的实时性:反馈可以形成正样本/负样本,用于模型未来的批量更新和实时更新。

    推荐框架:分为数据层、候选集触发层、候选集融合规则过滤层和重排序层。

    推荐召回。个性化推荐的成功应用需要两个条件。第一是信息过载,第二是用户大部分时候没有特别明确的需求。

    • 基于协同过滤的召回
    • 基于位置的召回
    • 基于搜索查询的召回
    • 基于图的召回
    • 基于实时用户行为的召回
    • 替补策略

    推荐排序:使用LTR技术,使用机器学习来训练得到线上的排序模型。

    • 排序特征
      • Item维度的特征:主要是Item本身的一些属性,包括价格、折扣、销量、评分、类别、历史点击率等。
      • 用户维度的特征:包括用户偏好、用户等级、用户的人口属性、用户的客户端类型等。
      • 用户和Item的交叉特征:包括用户对Item的点击、收藏、购买等。
      • 距离特征:包括用户的实时地理位置、常去地理位置、工作地、居住地等与POI的距离。
      • 场景特征:包括本地、异地,是否周末、节假日,天气因素等特征。

    推荐系统效果指标

  2. 电动车凭什么做未来的大趋势

    此文作者王铜根论证了电动车不环保,不省钱,体验不好,未带来能源安全。是很好的声音,应该仔细分辨。

    不环保:电动车的电怎么来的,烧煤烧来的。电动车的电存哪,背大电池,电池重量从五六百斤到两千斤(新能源酷爱使用市制单位)不等。就拿蔚来来说,一个70公斤的人想要移动,需要驾驶一台重达2.5吨重的电动车,百公里耗电三十度,这在任何围度下都和环保不沾边。

    随着电池成本下降,各个品牌的电动车可以使用更高能量密度的电池,终于在续航里程方面接近了普通汽车半箱油的水平。至此,全体电动车就都眼巴巴等着电池成本进一步降低,以及那个大家都在谈,但都没见过,也都不知道什么时候会出现的“电池技术突破”。

  3. 我为什么说电动车是垃圾?

    此文写于2016年,作者举例当时许多电动车,在于汽油车同等性能情况下,价格则是其的几倍。

    说到底,目前中国纯电动汽车的出现压根就不是为了让消费者开的。多数情况下,这些纯电动汽车纯粹是骗补贴的工具,纯粹是一个幌子。好不好用不重要,质量可不可靠也不重要,重要的是要能够吃到政策的红利。这红利,吃一波就走,根本没打算长留。

    为了快速投产,快速推向市场,快速骗取大量补贴,国产纯电动车基本上走了两条路,一是换标换造型版本的老年代步车,二是普通的汽油车直接改装而来。

    相应的,由于动力系统改变、重量分布改变带来的力学特性改变,国产纯电动车根本不屑于去研究。能动就行。所以这些被批量生产出来的、粗制滥造的玩意儿,在质量上、体验上、保值率上都惨不忍睹。买这样一台车,就是买了一台超贵的质量不咋地的四轮版电瓶车。

    此文章还论证了电动车的环保问题。通过火力、水利、核能发电都能带来不同的问题。

    现在中国火力发电机组平均热效率是多少?和丰田和本田的发动机也差不多啊?这还没算上电力传输过程中的损耗,如果算上,结果一定更加不堪。 (丰田、本田、马自达等车企都在向50%的热效率努力,这他妈才是人类之光好吗?看看某国勤劳智慧的人们在干什么,生产18万一辆的老年代步车。75万一辆的面包车。)

    然而正是因为电力一般不储存,所以用电高峰和低峰之间的差距需要弥补,这点需要进一步调查。

  4. 我烧汽油我骄傲,环保环你妈的保

    汽车带来的收益远大过成本

    事实上,以汽车对人类的贡献来讲,那点污染简直可以忽略不计。汽车排放的每一克二氧化碳都是值得的,因为汽车为人类的服务要远大于它的排放。

    汽车的出现为人类做出了如下贡献:

    1. 颠覆了世界的物质生产格局; 2. 促成了现代交通的形成与发展;3.使得社会生产与分工更广泛、更充分、更富有效率,极大地促进了社会物质文明的发展;4.强有力地促进了经济发展和科技进步,拉动上百种产业发展,增加财政和国民收入,创造海量就业机会;5.直接改变了人类的生活方式,丰富了人类的文化生活。……

    石油问题:全世界探明的石油储量却不断增长,全世界每年开采出来的石油也在不断增长。

  5. 又到了一年一度的欺负汽车季?

    北京机动车排放的PM2.5占总量的22%。但她没告诉你们,在中国的1亿3586万辆私家车(小型客车)排放的PM2.5,只占机动车排放总量的5.1%。(数据来自环保部《2016年中国机动车环境管理年报》)

  6. PM2.5的主要来源,到底是煤?是厂?还是车?

  7. 电动车凭什么不能是未来大趋势?

    能源效率

    能源成本

    • 家用慢充:0.168元/km
    • 公共快充:0.42元/km
    • 加油:0.63元/km

    环保:火力发电,集中污染处理。

    动力体验

    智能:一直说的电动车更智能,倒不如说电动车的成长潜力要比燃油车大。燃油车的驱动完全依靠发动机,而发动机是依靠燃烧汽油驱动的,而汽油的燃烧过程很难被控制。而电动车驱动依靠电机,电机依靠电压和电流,而电压和电流是可控的。也就是说,只要预留能力,电动车可以做到全车控制器的双向读写,也就意味着成长。我们一直说的OTA(On The Air空中升级),其实就是赋予了车辆可成长的能力。

  8. 《十年二十人》之程维 滴滴,让出行更美好。如何理解美好?一、确定性;二、便宜;三、服务好

    确定性到最后,就是告诉大家,其实不是每个人都有必要买辆车。如果你在想乘车的时候,一定会能打到车,那就不必要买车了。

    第一个篇章是出行的线上化;第二个篇章是共享交通工具共享化;第三个篇章是无人驾驶。

    无人驾驶使得汽车变成人类历史上第一代大规模应用的智能机器人。它在路上通过摄像头去观察。

    Waymo的技术已经在全球遥遥领先。2020年,谷歌采购了6.5万辆汽车,约合20亿美金,说明对2020年技术成熟度有一定信心。决定了未来几十年的行业格局。

    程维:新能源不是本质的改变。

    竞争、资本、政策跟旋涡一样。

    如果我在程维的那种情况下,是否能坚持下来呢?恐怕是不行的。家庭的因素不解决,不能安心战斗。程维出来创业的时候,养家糊口已经不再是问题了吧。

  9. 通勤,正在”杀死”1000万北京青年

    在北京,人们平均每天上班超过一个半马(26.4Km):“只是到公司,已耗尽我所有力气”、“业余生活是什么?到家只想平躺,因为已经11点了”

    支付宝出品的《数说中国人的夜生活》中显示,北京人凌晨5点就开始打车,是全国所有城市中最早的。

    《2018中国城市通勤研究报告》显示,北京市的平均通勤距离和时间最长(极光大数据出品)。

  10. 滴滴出行启动安全整治 9月8日至15日暂停深夜服务

    滴滴出行将于2018年9月8日23点至9月15日凌晨5点期间在中国大陆地区暂停提供深夜23:00-5:00时间段的出租车、快车、优步、优享、拼车、专车、豪华车服务。

  11. 周涛原创 大数据与人工智能的伦理挑战(1、2)

    本文将回顾大数据和人工智能伦理研究的背景、意义和现状,着重从中立性、时效性、导向性、边界问题、隐私问题和责权问题六个方面介绍大数据于人工智能发展带来的具体伦理挑战,最后简述当前有效的应对策略并讨论未来开放性的政策和技术问题。

    2016年,奥巴马政府发表了题为《为人工智能的未来做好准备》的报告[9],强烈建议要评估人工智能技术和产品带来的风险;2017年,欧洲经济和社会委员发表了题为《大数据伦理——在欧盟政策背景下,实现大数据的经济利益与道德伦理之间的综合平衡》的报告,对大数据的伦理问题进行了概括,特别强调了数据采集和使用带来的安全和隐私问题;2018年,英国议会发表了《英国人工智能的准备、计划和能力》的报告[11],呼吁政府为人工智能研发和应用设定伦理原则;美国电气与工程师协会、美国未来生命研究所等研究组织和微软、谷歌等科技公司也陆续发布了相关的研究报告。我国2017年发布的《新一代人工智能发展规划》中指出制定人工智能发展的伦理规范是促进人工智能发展的重要保证措施,2017年12月8日,中共中央政治局就实施国家大数据战略进行第二次集体学习,习近平主席主持学习并发表了讲话,在提出实施国家大数据战略加快建设数字中国要求的同时,特别强调了数据安全、数据隐私、数据确权、数据版权、数据治理政策储备和治理规则等与数据伦理相关的问题。与欧美等国相比,我国学界、业界和政府在大数据与人工智能伦理问题上系统性的深入研究还较少,目前尚未形成具有国际影响力的伦理研究报告和政策实施方案,与习近平主席提出的“要加强国际数据治理政策储备和治理规则研究,提出中国方案”这一要求尚有较大差距。

    • 中立性

    表面上客观的数据和理性的算法,也可以产生非中立性的结果。事实上,数据和算法导致的歧视往往更难发现也更难消除。数据和算法对中立性的破坏,可能来自三方面的原因:

    一是采集数据或设计算法的相关人员蓄意为之;

    即便数据是人类社会客观中立的记录,如果人类社会本身就存在偏见、歧视和不公平,那么相关数据自然也会带入我们社会的不公。例如,互联网求职的简历数据显示,在职场中身高和性别的歧视都非常严重[12]:平均身高越高,平均收入越高;在同等学历条件和行业背景下,女性要多工作5-10年才能获得和男性相当的薪水。显然,使用这类简历数据进行职位的推荐时,其结果必然自带歧视。

    二是原始数据本身就存在偏见,因此该数据驱动的算法结果也会有偏见;

    在万维网的标准文本语料库上进行训练,发现计算机可以“学会”沉淀在人类语言记录中隐含的偏见——既包括一些无关道德也无伤大雅的偏见,例如昆虫让我们联想到不愉快而花朵则常与欣愉的事情相伴,还包括一些严重的偏见,包括来自性别和种族的歧视[14]。实际上,有些我们人类自己都没有注意到的潜在的歧视,计算机也能通过机器学习捕捉到。这些数据上存在的偏见,会通过算法表现为带歧视的结果,这些结果可能进一步加大歧视,从而新的数据包含的偏见有可能被加剧,造成恶性循环。

    三是所设计的算法会导致有偏见的结果。

    在电商网站上,同一个品类下商品的价格差别巨大,例如都是灌开水的热水袋,在外观和功能差别不大的情况下,从十块钱到数千元都有。类似地,一支钢笔,从几元到几万元都有。如果某目标用户以前在电商网站收藏和购买的商品,在相关品类中价格排名都特别靠后,那么算法可能会在一个名为“价格敏感度”的特征维度上给该用户标上高分。于是乎,当该用户搜索一个关键词后,如果自己不做调整,可能从前到后翻十页,他看到的都是便宜货。尽管算法的初衷是提高该用户的点击率——这被认为对用户和商家都好——但是这事实上形成了同类商品展示对低收入消费者的歧视。试想如果在一个购物商场中部分人被告知因为收入过低不允许进入LV的店面,或者因为收入过低而要排队数小时才能入店,而高收入者有专享通道。这种歧视肯定是我们不能容忍的,而在互联网上,数据和算法带来的偏见与之类似但更为隐蔽。

    高度发达的人工智能会充分考虑包括家庭、性别、民族、消费水平等等关于你的各种数据,给出“最适合你的选择”。于是,不同收入和不同家庭背景的人会抵达城市中不同的角落、下载不同的课程、规划不同的人生。在大数据的时代,不同出身的人所获取到的信息差异,可能比现实世界的差异还大,因此很可能形成截然不同的视野、格局和能力,从而加剧而不是减少阶级的固化。

  12. 美团出行板块为何停止扩张?

    9月4日,美团更新招股书称,针对试点网约车业务,美团表示基于目前的市场情况,“预期不会进一步拓展此项目”。美团打车止步于“试点”南京和上海。

    美团打车目前在上海和南京运营。进入市场主要靠补贴模式,南京司机端佣金压缩至8%,而上海承诺上线前三个月0佣金,同期滴滴抽拥超过20%。更新后招股书显示,在只有南京一地试运营的情况下,2017年全年美团打车的司机成本为2.93亿元。2018年3月21日登陆上海后,截至4月30日的前四个月司机成本暴增至9.75亿元,同比更大增179倍.

    理解交通局的职责,未来自动驾驶会不会使得地方交通局的权利减弱?

  13. 程维:上半年亏损超40亿,滴滴不是一家赚钱高于一切的企业

    9月7日,滴滴创始人兼CEO程维发布了一封内部信,程维在信中再次对乐清顺风车事件表示自责,“一切问题都是管理者的问题,事件首要责任在我,责无旁贷”,同时,发布了滴滴上半年的经营数据。

    2018年上半年公司整体净亏损超过40亿人民币,出行业务对应GMV的平均Take Rate约为16%,绝大部分返还给了司机和乘客,公司整体对应GMV的毛利率只有1.6%。上半年,包括司机高峰期补贴、接单和服务奖励、乘客优惠等在内的总补贴返还金额超过117亿人民币。

    程维也早做好了继续亏损的心理准备。2017年12月程维接受《财经》采访时表示:“美国网约车大概是36%的利润,在中国远没有这么多,而且今天我们并没有在中国市场把赚钱当成目标,很多钱最后又返给车主和乘客或者投入长期发展当中了,滴滴会长期保持很低的毛利。”

    在亏损的状态下,滴滴谨慎开展新业务,同时加大在全球的投资,业界认为这将有助于提升滴滴估值。目前滴滴已经开展了快车、专车、豪华车、顺风车、公交、小巴、代驾、共享单车、汽车加油、维修、外卖及小额贷款服务。在国外,收购巴西本地移动出行服务商99,投资Grab、Lyft、Ola、Uber、Taxify、Careem等出行公司。

    盈利也是滴滴不得不考虑的问题。2018年6月,滴滴宣布专业品牌独立,有分析认为滴滴希望借此做大专车细分市场从而实现盈利目标。8月,滴滴宣布拆分汽车服务平台并组建独立公司,也是看中这一市场万亿规模的空间,希望独立融资,带来独立增长点,即使发展不好,也不影响主营业务上市。