大数据_萍乡站长网

【1】文本挖掘的主要概念

所属栏目：[大数据] 日期：2021-01-24 热度：53

转自 NLP论坛 http://www.threedweb.cn/thread-1281-1-1.html 什么是文本挖掘文本挖掘可以广义地定义知识密集的处理过程，其中用户使用一套分析工具与文档集合动态（随着时间的推移）交互。在类似于数据挖掘的方式，文本挖掘旨在通过识别令人感兴趣的模式[详细]
【3】文本挖掘方法论

所属栏目：[大数据] 日期：2021-01-24 热度：92

副标题#e# 转自 NLP论坛 http://www.threedweb.cn/thread-1284-1-1.html http://www.threedweb.cn/thread-1285-1-1.html http://www.threedweb.cn/thread-1286-1-1.html 文本挖掘流程第1阶段：确定研究目的像任何其他项目一样，文本挖掘的研究开始于研究[详细]
【4】构建基于scikit-learn的文本挖掘学习系统

所属栏目：[大数据] 日期：2021-01-24 热度：115

转自 NLP论坛 http://www.threedweb.cn/thread-1293-1-1.html 配置开发环境构建基于scikit-learn的文本挖掘学习系统 1. 下载和安装 python-2.7.8 for win322. 下载和安装 numpy-1.9.0-win32-superpack-python2.73. 下载和安装 scipy-0.14.0-win32-superpa[详细]
大数的四则运算

所属栏目：[大数据] 日期：2021-01-24 热度：54

项目名称：《大数的四则运算》 ? 开发环境：windows、vs2013 ? 开发技术：string、c++? ? 项目描述： ● 大数计算的底层采用string存储，将整形数据转换成字符串进行存储和运算? ● 运算的加减采用逐位加减，设置标记位，标记每一次加减的进位与借位，每[详细]
未来的信息化，就是挖掘企业数据、提升战略决策

所属栏目：[大数据] 日期：2021-01-24 热度：159

企业的发展，离不开信息化的支撑。不少企业在推进信息化进程过程中，会遇到这样的问题：开发效率低；业务需求多样且紧迫、系统多，开发人员学习困难。久而久之就会形成企业的信息数据壁垒，领导不能及时查看企业运营状况。那么该如何解决这类问题呢? 这[详细]
都想搞个大数据挖掘更多创造数据的渠道更重要

所属栏目：[大数据] 日期：2021-01-24 热度：187

点击上方蓝色字体关注。您还可以搜索公众号“ D1net”选择关注D1net旗下的各领域（云计算，数据中心，大数据，CIO，企业协作，网络数通，信息安全，企业移动应用，系统集成，服务器，存储，呼叫中心，视频会议，视频监控等）的子公众号。 ======= 现在大[详细]
【数位DP】HDU3565-Bi-peak Number

所属栏目：[大数据] 日期：2021-01-18 热度：112

题目链接：http://acm.split.hdu.edu.cn/showproblem.php?pid=3565 Problem Description A peak number is defined as continuous digits {D0,D1 … Dn-1} (D0 0 and n = 3),which exist Dm (0 m n - 1) satisfied Di-1 Di (0 i = m) and Di Di+1 (m = i n[详细]
LightOJ1282 Leading and Trailing 大数取首尾

所属栏目：[大数据] 日期：2021-01-18 热度：149

任何一个数都可以转换为10^k，k是一个小数，k的整数部分决定了这个数的位数，小数部分决定了每一位的值，根据此可以快速找到前三位。通过快速幂取模可以快速找到后三位。题目链接：http://acm.hust.edu.cn/vjudge/problem/26992 #pragma comment(linker,[详细]
数据处理之——data.table

所属栏目：[大数据] 日期：2021-01-18 热度：87

副标题#e# data.table简介关于 R 中的数据处理，我们接着介绍 data.table 包。上期我们介绍的 dplyr 有类似于sql的一套数据处理的语法，而 data.table 则有着它自己的一套语法，它能处理几乎所有 dplyr 可以处理的数据，而且代码量更少，效率更高，特别是[详细]
日均请求量百亿级数据处理平台的容器云实践

所属栏目：[大数据] 日期：2021-01-18 热度：106

from:?http://geek.csdn.net/news/detail/97887 声明：本文为CSDN原创投稿文章，未经许可，禁止任何形式的转载。? 作者：袁晓沛，目前在七牛云的主要工作是基于容器平台构建分布式应用，借助容器的优势，实现大规模分布式应用的自动化运维以及高可用，以Pa[详细]
如何计算文档相似性

所属栏目：[大数据] 日期：2021-01-18 热度：191

最近课题需要，整理一下文档相似性的一些研究，主要是参考知乎上面的回答和52nlp的相关文章。以备后期综述使用。具体还需要好好细读链接。主要思路 01/one hot representation，BOW+tf-idf+LSI/LDA体系. docsim方法：gensim包，使用corpora.Dictionary(te[详细]
关联规则挖掘——Apriori算法

所属栏目：[大数据] 日期：2021-01-18 热度：150

前言大二的时候，一个老师为了勾起我们对数据挖掘的兴趣，老是问我们这个问题：你们知道超市为什么要把啤酒跟尿布放在一起吗？但是从来没告诉我们答案。现在，很多人都听过这个问题，觉得很平常，但是那时的我真觉得挺神奇的。直到后来，了解了关联规则挖[详细]
在「不稀缺」的商业世界，如何挖掘稀缺的资源？

所属栏目：[大数据] 日期：2021-01-18 热度：170

副标题#e# 要生存壮大，就要找到新的稀缺资源，并且想尽办法掌握在自己手中。文 | 曲凯编者按：本文来源42章经（ID：MyFortyTwo），一家生产原创优质内容的科技媒体，誓同有趣、有料、有企图心的灵魂共成长。 “Technology increases access to what is[详细]
自动机+高斯消元 ifrog1025 Magic boy Bi Luo with his excited

所属栏目：[大数据] 日期：2021-01-18 热度：62

传送门：点击打开链接题意：告诉你ｎ个串，现在随机写字符，直到之前的字典里某个差un是当前写的串的子串时停止，问期望次数是多少．思路：玲珑套路杯，求个自动机发现next数组就是接下来的状态,套个高斯消元就做完了.. #include map#include set#includ[详细]
HHUOJ 1003 数字整除（模拟大数整除）

所属栏目：[大数据] 日期：2021-01-18 热度：188

1003: 数字整除时间限制: 1 Sec??内存限制: 128 MB 提交: 10??解决: 7 题目描述定理：把一个至少两位的正整数的个位数字去掉，再从余下的数中减去个位数的5倍。当且仅当差是17的倍数时，原数也是17的倍数。例如，34是17的倍数，因为3-20=-17是17的倍数[详细]
【报名】工业大数据深度挖掘应用与技术实现——清华大数据“技术

所属栏目：[大数据] 日期：2021-01-18 热度：175

大数据与工业数据的结合，使制造过程能进行分析、推理、判断、构思和决策等。通过人与机器的合作共事，去扩大、延伸和部分地取代人类专家在制造过程中的脑力劳动。它把制造自动化的概念更新，扩展到柔性化、智能化和高度集成化。然而，这一切又都必须服从[详细]
阶乘的精确值（大数）

所属栏目：[大数据] 日期：2021-01-18 热度：105

首先确定阶乘的位数。我们知道整数n的位数的计算方法为：log10(n)+1 故n!的位数为log10(n!)+1 ? 如果要求出n!的具体值，对很大的n（例如n=1000000）来说，计算会很慢，如果仅仅是求阶乘的位数，可以用斯特林(Stirling)公式求解 ? 斯特林（Stirling）公式[详细]
LSHForest进行文本相似性计算

所属栏目：[大数据] 日期：2021-01-18 热度：165

LSH Forest: Locality Sensitive Hashing forest,局部敏感哈希森林，是最近邻搜索方法的代替，排序实现二进制搜索和32位定长数组和散列，使用hash家族的随机投影方法近似余弦距离。随机投影树，对所有的数据进行划分，将每次搜索与计算的点的数目减小到[详细]
【R语言数据处理】一步一步来分析数据之不知哪位收集的淘宝推荐

所属栏目：[大数据] 日期：2021-01-18 热度：157

文件名：淘宝最全年货大促特价整理数据我先传百度云了，分享一下，你们看了就知道是什么样子的了，我改了一下名字，文件名：tbtj.xls 360云盘：https://yunpan.cn/cMTiN2Lyk5MpK 访问密码 d2cc 百度云：http://pan.baidu.com/s/1hsBHuGO 我们先来看下里面[详细]
DB、ETL、DW、OLAP、DM、BI关系结构图

所属栏目：[大数据] 日期：2021-01-18 热度：84

（1）DB/Database/数据库——这里一般指的就是OLTP数据库，在线事物数据库，用来支持生产的，比如超市的买卖系统。DB保留的是数据信息的最新状态，只有一个状态！比如，每天早上起床洗脸照镜子，看到的就是当时的状态，至于之前的每天的状态，不会出现的你[详细]
R语言-数据处理

所属栏目：[大数据] 日期：2021-01-18 热度：95

Reading Data 读取表格数据的函数read.table()以及read.csv() readLines()用于逐行读取文本文件 source()读取R代码的重要函数 dget()用来读取R代码文件 load()和unserialize()用于把二进制对象读入R Writing Data write.table() writeLines() dump() dput([详细]
简单粗暴的“大数据“解决方案

所属栏目：[大数据] 日期：2021-01-18 热度：59

这里说“大数据”确实有点哗众取宠，但确确实实是解决一些大数据量的情况。比如常用的布隆过滤器(BloomFilter)、常用的文本相似比较算法SimHash等，这里介绍的都是看上去是简单粗暴的方法，但当你深入了解后你就会发现什么叫简约而不简单，掌握这些常用的[详细]
连续属性离散化

所属栏目：[大数据] 日期：2021-01-18 热度：124

1. 离散化技术分类连续属性的离散化方法也可以被称为分箱法，即将一组连续的值根据一定的规则分别放到其术语的集合中。离散化技术可以根据如何对数据进行离散化加以分类，可以根据是否使用类信息或根据进行方向(即自顶向下或自底向上)分类。如果离散化[详细]
互联网金融之量化投资深度文本挖掘——附源码文档

所属栏目：[大数据] 日期：2021-01-18 热度：98

副标题#e# ?? 【重！磅！干！货[详细]
新闻中文本地域信息标签的抽取

所属栏目：[大数据] 日期：2021-01-17 热度：65

这里主要是基于规则的新闻地域提取方法，这里简要记录一下思路。首先我们拥有了地域信息数据库，并且标注了省市的layer层信息。主要思路是利用nlp库，分词得到标有地名属性词，在于地域数据库匹配。第一步，提取正文分词得到标注为地名的词语。第二步，[详细]

2317

首页

尾页