作者 | 琰琰、王晔
编辑 | 青暮
当地时间8月16至20日,第47届VLDB 2021会议在丹麦哥本哈根。
VLDB会议全称International Conference on Very Large Date Bases,是数据库领域的顶级学术会议和另外两数据库会议SIGMOD、ICD共同构成了数据库领域的顶级会议。
按照惯例,今年VLDB会议开设了最佳研究论文奖、最佳EA&B论文奖(实验、分析和基准)、最佳可扩展数据科学论文奖、最佳工业论文奖等多个奖项。此前华人学者便在此领域一骑绝尘,今年也不例外!
共收录了216篇 Research Paper、23篇Industry Paper、56篇Demo Paper ,其中入选的最佳研究论文、最佳EA&B论文、最佳工业论文的一作作者均为华人学者,他们分别是新加坡国立学研究员杨任驰、西蒙弗雷泽学博士生Xiaoying Wang、加州学伯克利分校博士生Audrey Chen。
AI科技评论将华人学者及论文信息介绍如下:
最佳研究论文奖
论文《Scaling Attributed Network Embedding to Massive Graphs》
论文作者:Renchi Yang,Jieming Shi,Xiaokui Xiao,Yin Yang,Juncheng Liu,Sourav S. Bhowmick
本篇论文一作杨任驰,目前是新加坡国立学研究员。他在2015年获得北京邮电学工学学士学位;2020年获得南洋理工学计算机科学系博士学位,师从Xiaokui XIAO教授和Sourav Saha Bhowmick。主要研究规模数据管理与分析,对图挖掘、海量高维数据设计、高效算法感兴趣。
个人主页:https://renchi.ac.cn/
论文地址:http://vldb.org/pvldb/vol14/p37-yang.pdf
论文摘要:
要想获得准确预测的属性网络嵌入( Attributed Network Embedding, ANE)是一项很有挑战性的工作,而将有效的 ANE 计算扩展到包含数百万节点的海量图上,又将其难度推到了一个新高度。现有的解决方案在这种图上基本上会失败,或造成过高的成本、低质量的嵌入,或两者兼而有之。
本文提出了一种有效的、可扩展的计算海量图的PANE方法,其在多个基准数据集上达到了性能水平,其衡量标准包括属性推断、链接预测和节点分类三种常见的预测任务的准确度。特别是,对于拥有超过5900万个节点、9.8亿条边和2000个属性的型MAG数据,PANE是唯一已知的可行的解决方案,它可以12小时内在单个服务器上获得有效的嵌入。
PANE通过三种主要算法的设计实现了高扩展性和有效性。首先,基于一种新的属性随机游走(random walk)模型,提出了学目标,而在处理型图优化任务上,仍然具有挑战性。其次,PANE为解决优化问题提供了一个高效求解器,其关键模块在于精心设计的嵌入初始化,它减少了收敛所需的迭代次数。最后,PANE通过对上述求解器的非线性并行化利用多核CPU,从而实现了可扩展性,同时保留了高质量的嵌入结果。通过广泛的实验,在8个真实数据集上比较了10种现有的方法,证明了PANE在结果质量方面优于所有现有方法,同时速度要快几个数量级。
最佳EA&B论文奖(实验、分析和基准)
论文:《Are We Ready For Learned Cardinality Estimation?》
论文作者:Xiaoying Wang, Changbo Qu, Weiyuan Wu, Jiannan Wang, Qingqing Zhou
本篇论文一作Xiaoying Wang,目前是西蒙弗雷泽学数据库系统实验室的博士生,师从王健楠教授。2016 年 7 月至 2018 年 4 月,她在奇虎 360 担任 AdExchange 的 C++ 人员。
个人主页:https://wangxiaoying.github.io/
论文地址:http://vldb.org/pvldb/vol14/p1640-wang.pdf
论文摘要:
基数估计 (Cardinality Estimation)是查询优化中长期未解决的基本问题。最近不同研究小组的多篇论文一致指出,基于学的模型有可能取代现有的基数估计器。对此,我们提出了一个具有前瞻性的问题:基于学模型的基数估计方法是否已经可以应用于真实的数据库产品中?本文的研究包括三个主要分:一是专注于静态环境(即无数据更新的数据库系统),在统一的工作负载设置下,比较不同的学的方法和传统方法在四个真实数据集上的表现,结果表明,基于学的方法比传统方法更精确,但需要更高的训练成本和推理成本。二是基于学的方法是否可用于动态环境(即频繁更新的数据库系统)。实验证明,它们无法跟上快速更新的数据变化,并很可能引起较的误差。第三,通过深
入地研究基于学的方法可能出错的几种情况。我们发现,相关性、分配或领域小的变化会极地影响该方法的性能。更重要的是,这些方法的行为通常很难解释和预测。基于以上发现,我们确定了未来应该进一步研究的两个方向,即如何降低学模型的成本,以及提升模型的可信性。希望这项工作能够指导研究人员和从业人员共同合作,将基于学到的基数估计器应用到真正的数据库系统中。
最佳可扩展数据科学论文奖
论文:《Optimizing Bipartite Matching in Real-World Applications by Incremental Cost Computation》
论文作者:Tenindra Abeywickrama, Victor Liang,Kian-Lee Tan
论文地址:http://vldb.org/pvldb/vol14/p1150-abeywickrama.pdf
论文摘要:
Kuhn-Munkres(KM)算法是一种经典的组合优化算法,在交通等诸多应用场景中被广泛用于最小成本的二( bipartite)匹配。例如,网约车服务可以用它来匹配司机和乘客,以尽可能地缩短等待时间。通常情况下,给定的两个二集合,需要计算所有二对之间边的成本并找到最优匹配。然而,现有研究忽略了边成本计算对整体运行时间的影响。实际上,边计算会超过最优分配本身的计算,例如在为乘客匹配司机时,最短路径往往需要很高的计算成本。根据这一观察,我们发现,常见的现实世界的设置表现出一个有用的特性,即允许我们仅在需要时使用最低的下限启发式增量计算边成本。与原始KM算法相比,这种技术显著降低了分配的总体成本,这一点我们已经在多个真实数据集、工作负载上得到了验证。此外,该算法并不限于这个领域,它还可能适用于其他有下限启发式算法的环境。
最佳工业论文奖
论文:《RAMP-TAO: Layering Atomic Transactions on Facebook's Online TAO Data Store》
论文作者:Audrey Cheng,Xiao Shi,Lu Pan,Anthony Simpson,Neil Wheaton,Shilpa Lawande,Natacha Crooks,Ion Stoica
论文一作Audrey Cheng目前是加州学伯克利分校计算机科学专业在读博士生, RISELAB成员,师从Ion Stoica教授和Natacha Crooks教授,曾获得伯克利校长奖学金,对数据库与分布式系统感兴趣。
个人主页:https://audreyccheng.github.io/
论文地址:http://vldb.org/pvldb/vol14/p3014-cheng.pdf
论文摘要:
与其他分布式数据存储一样,Facebook社交图谱TAO会优先考虑可用性、效率和可扩展性等因素,而不是满足型、可读性强的工作负载所需要的一致性或保密性。随着产品人员在此系统上构建不同的应用程序,他们开始更多地关注业务语义。然而,为选定的应用程序提供高级功能,同时保持系统整体的可靠性和性能一直是一项挑战。在本文中,我们首先描述了者多年来的业务需求,以及目前TAO出现的原子级错误(即写),以此探讨了如何引入一个直观的读取业务API。我们通过对潜在异常的测量研究,强调了API原子级可见性的必要性,这些异常通常在没有强读取隔离的情况下发生。我们的分析表明,1500次批量读取中有1次反映分业务性更新,这可能使人员体验变得复杂化,并产生意外的结果。为了缓解这个问题,我们提出了RAMP-TAO协议,这是一个基于读取原子级多分区(RAMP)协议的变体,支持最小开销的署,同时确保规模读取优化工作负载的原子级可见性。
雷锋网雷锋网雷锋网