重磅 | 微绵软颁布匹数据集儿子MS MARCO,打造阅

  原题目:重磅 | 微绵软颁布匹数据集儿子MS MARCO,打造阅读了松范畴的「ImageNet」

  选己微绵软

  机具之心编译

  参加以:吴攀、李亚洲

  皓天早些时分,微绵软在其官方落客上发表发出产颁布匹了壹个包罗 10 万个效实和恢复案的数据集儿子,切磋者却以运用此雕刻个数据集儿子到来发皓却以像人类壹样阅读和回恢复效实的体系。余外面,微绵软方案仿效 ImageNet,与其人家合干、终极兴办正式的竞赛等。

  此雕刻个数据集儿子名叫 MS MARCO,体即兴 Microsoft MAchine Reading COmprehension(微绵软机具阅读了松)。其面前的团弄队宣示此雕刻是当前此雕刻壹类佩中最拥有用的数据集儿子,鉴于此雕刻个数据集儿子是基于藏名的真次数据构建的。经度过将该数据集儿子避免费绽给更多的切磋者,该团弄队期望却以推向机具阅读范畴的切磋打破开,就像之前切磋者曾经在图像识佩和语音识佩范畴所得到铰翻性打破开壹样。

  MS MARCO 数据集儿子地址:http://www.msmarco.org

  

  他们也期望此雕刻次绽却以推向「人工畅通用智能(AGI/artificial general intelligence)」的临时目的的完成,即发皓出产却以像人类考虑的机具。

  

  Rangan Majumder,微绵软 Bing 搜索伸擎机关合干同伙组的以次经纪

  微绵软 Bing 搜索伸擎机关合干同伙组的以次经纪(partner group program manager)Rangan Majumder 是此雕刻个项目的指带者,他说:「为了完成材工畅通用智能的目的,我们比值先需寻求机具却以像人类壹样阅读和了松文档。此雕刻个数据集儿子是向此雕刻个标注的目的迈出产的壹步。」

  Majumder 说,当前回恢复骈杂效实的体系依然还处在婴男阶段。Bing 此雕刻么的搜索伸擎和小娜这么的杜撰副顺手还不得不回恢复壹些根本的效实,譬如「阴暗中节那天末了尾?」或「2000 迨以 43 等于好多?」

  Majumder 说,但在好多案例中,搜索伸擎和杜撰副顺手条会将用户指伸到壹些搜索结实。天然用户依然会得到他们想要的信息,但那也需寻求用户在搜索结实列表中寻摸所需的恢复案链接。

  为了完成更好的己触动讯问恢复体系,切磋者需寻求更绵软弱小的锻炼数据。此雕刻么的锻炼数据需寻求却以教养会人工智能体系识佩效实和布匹局恢复案,并终极却以根据它们之前从不见度过的特定效实构建出产己己己的恢复案。

  Majumder 及其团弄队(带拥有微绵软的壹些切磋者和从事产品开辟的人)体即兴,MS MARCO 数据集儿子是什分拥有用的,鉴于该数据集儿子的效实基于到来己 Bing 搜索伸擎和小娜杜撰副顺手的真实的、藏名的查询。该团弄队根据切磋者因此为的更诙谐的查询而对此雕刻些效实终止了选择。摒除此之外面,此雕刻些效实的恢复案邑是根据真实的网页而人工书写的,正确性曾经度过了验证。