欢迎来到 - 同桌美文网 !    
当前位置: 首页 > qq日志 > 空间文字 >

文本挖掘有多大的想象空间?「达观数据」基本实现盈亏平衡

时间:2018-06-05 09:22 点击:
原标题:文本挖掘有多大的想象空间?「达观数据」基本实现盈亏平衡 大数据这个链条上,最前端有做采集、清

原标题:文本挖掘有多大的想象空间?「达观数据基本实现盈亏平衡

数据这个链条上,最前端有做采集、清洗的,像BasicFinder之类,接下来有做交易平台的,像聚合数据、数据堂等,再之后有做统计分析的,像神策数据、GrowingIO等,还有做运算的,像星环科技等。从这个角度来说,“达观数据”是在采集文本数据的基础上做应用,包括文本挖掘、个性化推荐及站内搜索。从人工智能来说,有的公司做图像识别,有的做视频解析,“达观数据”则是做文字处理的,也就是自然语言处理NLP。

从应用较多的文本推荐说起。

推荐系统的本质是通过一定的方式将用户和喜欢的物品联系起来。拿媒体举例,用户阅读文章后,达观数据会根据文章标签推荐相似的文章。这个“打标签”的过程便是关键。

我们知道在人工智能领域中常会搭建“知识图谱”,那么达观是否有一个全量的词典呢?达观数据创始人兼CEO陈运文举例解释:“假设要在一段文字中提取人名,中国姓氏、名字组合那么多,我们不可能配出全词典,更何况还有变相称呼,例如‘徐宁’也会被叫成‘小徐’。要让机器理解这几个字组成的是人名,需要靠算法来完成,而不是简单的配词。知识图谱更多是在文本挖掘基础上衍生的应用系统。”

对机器来说,文字即是数据,判断文章的主题、挖掘文本的意思,存在特有的算法规律。比如说,系统可以识别题目中出现的文字,这些文字在文章中哪些位置出现,出现位置的上下文是什么,标题跟内容的匹配程度,还有哪些相关内容等。再比如说,科技类的文章跟娱乐类的在风格、用词、结构上有本质区别,而机器能不断学习提取出差异点。“这些背后都需要用到语义理解,中文语法又相对灵活,不像英文的主谓宾那么严格,即便是同一句话,还需要结合语境,”陈运文坦言,难点在于,前期得积累大量的领域知识,有语料给机器进行不断的训练。

除了媒体,其实传统企业里也存储着大量文档,此前都是人工进行归档、处理,文本挖掘无疑能够提高企业自动化,尤其是那些“有套路”的报告工作。

在推荐系统的基础上,达观数据还延伸出很多其他功能,比如说搜索。把文字理解更深一步,便可以提供给用户感兴趣的知识,提高匹配效率。这里会根据用户点击等指标,不断优化算法。

假设,我搜索关键词A,浏览了三页才点击信息B,若大多数人都有相同的操作,那么信息B的展现位置会被前移。若我换了关键词C,那么机器会去学习关键词A与C之间存在的关联关系。当然,点击量只是评价搜索质量的一个常用指标,还有停留、浏览等判断维度。陈运文概括,“好”的搜索算法是需要让用户获取信息的效率更高、停留时间更短。

说到这里,不禁想到此前36氪报道过的“法律谷”,应用在法律文书检索方面,跟达观数据也有一些交叉点。

据了解,达观数据目前服务的领域包括媒体、视频、电商、银行以及金融科技等,其中不乏华为、中兴等大型企业,还有梨视频、酷六、趣头条等,京东云整个平台的提供智能搜索系统就是由达观提供。系统上线后,达观数据客户的经营业绩普遍都能提升 30% ;通过个性化推荐引擎的服务,客户平台人均播放次数等关键指标提升了近 4 倍。而达观在文本挖掘、搜索引擎、个性化推荐系统方面已拥有 30 余项国家发明专利。

不过,这里有个疑问,为什么大企业不自己做?陈运文表示,文本挖掘并不是一劳永逸的一套软件,在企业使用过程中,还需要提供服务不断优化。算法会让机器根据指标反馈自动优化,但算法本身的调优是需要人工操作的。巨头去做服务显然成本太高,这也是创业公司的机会所在。

陈运文还强调,在实际推广过程,会遇到相当多的企业客户不希望数据外流,“比如很多合同文件,不可能我检索推荐完了就成了我的数据,所以,达观还支持私有部署。”据悉,企业可以免费试用两周,企业客单价20万元起,大型企业过百万元,付费客户上百家。

此外,达观还跟神策数据达成战略合作,神策帮助企业完成数据采集、整理、分类等工作,建好大数据基础设施,达观在此基础上完成数据挖掘和应用工作。

公司层面,达观数据成立于2015年,目前团队有70多人。2016年获得了真格基金领投,众引传媒集团、盛大集团、掌门科技等国内跟投千万级天使投资。今年4月中旬,又完成了5000 万元 A 轮融资,由软银赛富领投、方广资本跟投。公司目前基本实现盈亏平衡,预计明年启动下一轮融资。

附创始团队背景:

CEO陈运文为复旦大学计算机博士,曾担任盛大文学首席数据官,腾讯文学高级总监、数据中心负责人,百度核心技术研发工程师,国际计算机学会(ACM)会员,中国计算机学会(CCF)高级会员,在国际顶级学术期刊和会议上发表多篇SCI论文,多次参加ACM国际数据挖掘竞赛并获得冠军荣誉;

CTO纪达麒为原腾讯文学数据中心高级研究员、盛大文学技术总监等职务;  原搜狗广告技术部和百度技术部高级工程师;拥有北京邮电大学计算机硕士学位;

COO冯佳妮为原盛大云计算公司运营总监、安普丹华国际咨询公司高级咨询师,多次获安普丹华公司Top-Sales荣 誉;拥有山西财经大学工商管理和商务英语双学士学位。


数据统计中,请稍等!
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------