机器处理大量的非结构化文本,发现媒体提及,实体之间的关系以及情感分析的价格不必超出日常网络爱好者或小型企业的范围。

今晚,得克萨斯州的两家公司宣布了一项合作,以极低的价格将这种产品推向市场。网页检索服务 80Legs 和自然语言处理服务 语言计算机公司 共同努力创造 提取物,这是一种以可承受的价格提供的网络抓取和语义分析服务。一世’我已经使用它来对我自己的工作进行一些很棒的批量文本分析。

上图:Extractiv在我今天有关杰伊·阿德尔森的文章中正确识别了人物,地点和日期’的新工作。它只是将一个极客误认为是运动员,还不错。想象一下,这种分析散布在成千上万个文档中,正如他们所说,您正在用天然气做饭。

测试工具

为了测试Extractive,我为该公司提供了超过500个网络域的集合,用于在线顶级地理博客,并要求其技术对单词的所有外观进行排序“ESRI.”(地理位置市场中领先的供应商的名称。)

结果输出包括描述某些人,地点或事物的结构化单元格,它与ESRI单词和单词一起出现的URL的某种类型的关系。因此,它可以排序并准备进行分析。

由于我提交了来自同一域的如此多的链接,因此该任务已部分受限,然后才受到速度限制。分析了超过125,000页,发现762个包含我的关键字ESRI的文档,发现了大约400个关系(包括重复项)。通过在电子表格或其他方式中对所有这些数据进行排序,我会发现什么样的关系模式?我可以’t wait to find out.

这项工作花了机器大约一个小时,而每月的订阅费为99美元之后,我的花费不到1美元。下一个级别的订阅将以更快的速度执行,并以每月250美元的基本费率运行更多同步进程。

机器不是’t perfect –但是对于今天晚上刚刚发布的产品,它看起来非常令人印象深刻。将来,我会再次使用Extractiv进行批量文本分析吗?我当然会,事实上,我打算开始考虑我要写什么文字’d喜欢立即分析。

这种服务代表了对未来的不可思议的愿景:商品级别,对用户生成的内容或其他内容产生的海量数据进行DIY分析,可进行模式检测以进行分类以及情绪分析。

技术背后的人

80Legs由首席执行官Shion Deysarkar领导,Shion Deysarkar是一位前石油工业计算机科学家,后来成为社交网络数据黑客企业家,我们在今年春天对其进行了介绍。 (很好地推销这个世界的人的想法)Deysarkar和80Legs CTO Toan Duong在网上描述自己受雇于 Creeris Ventures是一家休斯顿风险投资公司,拥有包括网格计算,喷气式飞机和诉讼在内的多元化投资组合。

提取物的合作者语言计算机公司包括John Lehmann,John Lehmann,他自9月以来一直是LCC的首席执行官,并且是Extractiv的总裁。 NLP专家也是最高级别的专家,也是该公司的共同创立者,最近一次是 问答机 慢慢地