为什么我们要开始集智数据

第一次接触到数据众包的概念,是在四年前刚到美国念书的时候。那时候我是伊利诺伊大学的香槟分校计算机科学的研究生,做的是人工智能相关的研究。研究的过程当中,我发现大量标注的数据是推动人工智能发展的关键。透过大量标注过的数据,机器能在数据中学习出有用的模型,对其他数据进行准确的判断与预测。

为了标注大量的数据,我开始认识 Amazon Mechanical Turk。Mechanical Turk是亚马逊为了标注数据而开放的众包平台。因为平台上有数以千万计的用户,即便是大量的数据都能在很快的时间内用很低的成本完成标注。快速又低成本的取得标注数据让我们可以轻松地验证不同的想法。这不但让我们的研究进行的相当顺利,我也常常与研究伙伴发布一些自己有兴趣的实验,玩的不亦乐乎。

不仅仅是学术上的研究,数据众包的概念也被广泛地应用在业界。在LinkedIn工作时,我所在的团队负责的是整个网站的搜索功能,我们必须确保LinkedIn提供的算法可以让用户搜索到想要的结果。因此,我每日都将搜索结果抽样送到众包平台上让用户判断这些结果的准确率。根据这些数据,公司便能每日验证搜索算法的表现,当表现不好时我们的团队就可以及时改善算法。

这些在美国研究跟工作的经历让我认识到数据众包的无限可能。目前数据众包仍以英文为主,世界上没有一个很好的数据众包平台可以标注中文的数据,导致许多国内的研究人员必须使用英文的数据来发展他们的研究,这也限制了中国大数据产业的发展。因此,我跟研究伙伴决定回到国内创立集智数据,提供一个中文数据的众包标注平台。我们期望大家都能用集智快速且低成本地取得高质量的标注数据,建立有用的模型,快速验证不同的想法。

我们的产品将在9月中上线,一开始将会提供前100名注册用户¥100的额度在我们的平台上免费发布数据标注任务。若企业与学校有数据标注的需求,也欢迎直接跟我们联络,我们能提供免费的顾问服务。

在未来,我们的博客和公众号每周会发布一些我们自己在平台上的有趣实验,翻译一些国外大数据产业的相关报告,或甚至分享一些我们产品开发的经验与心得。欢迎大家有空多来逛逛!