CSGO竞猜

请在Chrome、Firefox等现代浏览器浏览本站。另外提供付费解决DEDE主题修改定制等技术服务,如果需要请 点击 加我 QQ 说你的需求。XML地图

亚马逊向Alexa参赛团队开放410万字最大聊天语料库,用于AI模型训练

团队训练 采集侠 评论

亚马逊将在九月份发布超410万字的主题聊天数据集,它将是最大的公共社交对话和知识数据集之一。

王者荣耀菠菜

智东西(公众号:zhidxcom)
编 | 刘阳

导语:亚马逊将发布超410万字主题聊天数据集,提供大量针对自然语言处理研究的数据样本。

据外媒报道,亚马逊计划提供大量针对自然语言处理研究的数据样本。亚马逊在4月1日表示,在今年9月份将发布“主题聊天数据集”(Topical Chat),这是一系列众包的人类对话的语料库,提供给参加年度Alexa奖Socialbot Grand Challenge比赛的团队

亚马逊表示,该主题聊天数据集包含超过21万条话语,超过410万个单词,是最大的公共社交对话和知识数据集之一。语料库中的每个会话和会话转换都与提供给人群工作者的知识相关联,这些知识是从一系列与一组实体相关的“非结构化”和“松散结构化”文本资源中收集的。

亚马逊高级首席科学家Dilek Hakkani-Tur在一篇博客文章中明确表示,这些对话都不是来自与Alexa客户的互动。Hakkani-Tur称:“这次收集的目标是使基于知识的神经反应生成系统的下一步研究成为可能,解决自然对话中其他公开数据集无法解决的难题。” “这将使研究人员能够专注于人类在话题之间的转换方式,知识的选择和丰富,以及将事实和观点整合到对话中……并支持发表高质量、可重复的研究。”

亚马逊表示,,竞争Alexa奖的团队将可以访问数据集的扩展版本——名为Extended topic Chat dataset,它包含了正在进行的收集和注释的结果。

大约六个月前,亚马逊就已经公开了一套数据集,这套数据集可用于训练人工智能模型,识别不同语言和脚本类型的名称。它被称为“多语种名称实体音译系统”,包含了从维基百科中摘取的近40万个名字,这些名字囊括了多个语种,包括阿拉伯语、英语、希伯来语、日语片假名和俄语。

原文来自:VentureBeat

TAG: 警察的好文章 陆谷孙好文章 写好文章有哪些好方法 关于钢厂安全的好文章 说话难听人很好文章 可以分享的好文章 在哪里才能看到好文章 谚语开头的好文章 政协好文章 各种好文章的结尾 好文章怎么赞美 对学生有启示的好文章 关于坚持的好文章 免疫荧光 发好文章 护理新三好文章 健身好文章 适合朗诵的好文章 过年一家团聚的好文章 好文章模板 记事好文章
喜欢 (0) or 分享 (0)
发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论