公司名称:九九信用 大象金服北京科技有限公司

联系人:张 先生 (CEO)

电话:010-62648216

传真:

手机:

NLPIR大数据挖掘平台灵玖LJParser全面功能升级

发布时间:2017年01月06日

详细说明

  在互联网发展到大数据时代,那么数据就等于金钱。随着向一个基于应用的领域过渡,数据则呈现出了指数级增长。然而,百分之八十的数据是非结构化的,因此它需要一个程序和方法来从中提取有用信息,并且将其转换为可理解、可用的结构化形式。
  在数据挖掘过程中,有大量的工具可供使用,比如采用人工智能、机器学习,以及其他技术等来提取数据。
  LJParser系统指的是网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集,开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。
  全面升级的LJParser系统在以下方面做出重点提升:
  1、汉语词法分析中间件(分词、词性标注、人名地名机构名识别)
  汉语词法分析中间件能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
  2、新语自动发现中间件
  新词自动发现技术能够识别出词典中没有出现过的词汇、短语、命名实体、流行用语,是语言文献分析方面的一把利器。新词发现脱胎于语言自动分词技术,又是对分词技术的有效提升和补充。
  灵玖采用基于语义的统计语言模型,所处理的文档不受行业领域限制,能够有效地挖掘出新出现的特征词汇,所输出的词汇可以配以权重。
  3、文本聚类中间件
  文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。
  灵玖基于文章集合核心语义理解技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。
  4、增加关键词扫描中间件
  关键词扫描中间件组件采取先进的NLPIR大数据搜索与挖掘系统,可以针对原始文本关键词集进行处理和加工,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。
  采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出*新出现的新词语,所输出的词语可以配以权重。

九九信用 大象金服北京科技有限公司


联系人:张 先生 (CEO)
电 话:010-62648216
传 真:
手 机:
Q Q:
地 址:中国北京海淀区苏州街49-3号盈智大厦五层
邮 编:
网 址:http://jiuxinyong.qy6.com(加入收藏)