免费视频|新人指南|投诉删帖|广告合作|地信网APP下载

查看: 1288|回复: 1
收起左侧

[中地快讯] MapGIS文本大数据分析与挖掘引擎

[复制链接]

208

主题

4810

铜板

58

好友

版主

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

积分
3959
发表于 2019-8-1 17:08 | 显示全部楼层 |阅读模式
本帖最后由 candy33 于 2019-8-1 17:09 编辑

      非结构化数据在地理信息行业中所占比例较大,涉及的内容丰富,潜在的价值是其他数据无法比拟的,如地质成果数据,此类成果数据一直以传统的目录文件方式进行存储管理,这种存储方式导致数据的查询、统计、更新等操作低效,而且不利于检索、阅读、挖掘等应用,使得这些内容丰富的数据服务能力不高,且应用率极低。mapgis文本大数据分析与挖掘引擎针对非结构化文本数据进行挖掘计算,提高该类数据的应用范围,深掘数据价值。
文本大数据分析与挖掘技术架构
      MapGIS文本大数据分析与挖掘引擎基于多种分布式存储,Spark分布式内存计算技术,提供多源数据的整合分析方法,通过空间信息提取,建立文本与空间信息的关联,提供聚类、分类、关联等机器学习挖掘技术,实现从大量非结构化地理文本数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并利用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。
基于分布式环境的文本大数据存储与管理体系
      MapGIS文本大数据存储管理构建在混合分布式数据存储系统DataStore之上,包含原始文件、文本内容、文本索引三个层次的存储与管理。
      原始文件存储:支持HDFS、对象存储、云存储等多种分布式存储,以原始文件的方式进行保存;
      文本内容存储:采用HBase存储抽取出来的碎片化的文本、图片、表格等文件内容;
      文本索引存储:采用ElasticSearch存储技术将文本分词,形成倒排序索引,便于文本检索;
基于动态词典,实现专业语义的分词方法
      分词是文本数据处理的首要步骤,分词的准确性极大的影响着后期数据检索分析挖掘结果的准确性,MapGIS文本大数据分析与挖掘引擎,基于动态分词词典的基础,提出自学习动态索引存储机制,自动计算收录新词,再结合基础索引存储和动态索引存储等多层次索引进行文本数据的检索。
基于文本数据快速提取空间位置信息,实现文本空间化和语义关联
      非空间文本数据与空间数据关联分析是MapGIS文本大数据分析与挖掘引擎提供的核心能力之一,系统提供工具快速从文本内容中提取空间地理位置信息,通过权重评分等机制,筛选真实的地理位置信息,从而使文本数据空间化,进而进行空间查询与统计汇总等分析;通过对领域知识深度挖掘,构建知识库,提供语义关联的能力,如对业务系统中文本型地名地址数据进行采集汇总、分词等处理,形成具有意义的地名地址语义知识库,再结合空间关联,可以对不相关的业务数据进行关联分析,形成新型分析结果。
基于位置的智能地理感知能力
      MapGIS文本大数据分析与挖掘引擎为移动端业务赋予智能地理感知的能力,通过对文本空间位置信息的提取与处理,与空间主题数据发生关联之后,当移动设备位置发生变更后,系统自动感知,结合用户行为分析数据,自动从后端获取用户关心的周边文本资料片段和空间主题类别信息,从而使知识的应用从主动搜索模式升级为自动感知模式,极大提升文本数据的价值。
实际应用场景
      某地质资料馆约1万多档(约2.2T,170多万文件)地质资料,原始资料以文件夹档案为单位,档案下包含doc、pdf、图片、图件等资料,利用MapGIS文本大数据分析与挖掘引擎,约1秒内能从构建的索引库和内容库中快速检索出相关的内容片段,进而调取文档内容进行浏览,结合空间数据与地理位置,使野外地质调查用户在手持端快速得到周边的地质文本信息,有效解决了野外地质调查过程中查阅资料困难的问题。

发表于 2019-8-2 15:57 | 显示全部楼层
谢谢分享!!!!!!!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

在线客服
快速回复 返回顶部 返回列表