Lv.1
唐TTT
更多个人资料
0
成长值
0
关注
1
粉丝
+ 关注
个人介绍
擅长大数据
感兴趣或擅长的领域
大数据
个人勋章
TA还没获得勋章~
成长雷达
0
0
0
0
0
个人资料
个人介绍
擅长大数据
感兴趣或擅长的领域
大数据
达成规则
以上满足
项可达成此勋章
博客
关注
粉丝
论坛
全部时间
全部时间
最近三天
最近一周
最近一月
全部
暂无专栏分类
Mysql到HBase的迁移
Hive可是远重要于HBase sqoop import --connect jdbc:mysql://localhost/retail_db--username root --password hadoop--table products // mysql的products表--columns "customernum,customername" //里面的两个原始数...
MySQL
HBase
迁移
唐TTT
2019-01-28 18:20:22
7524
0
0
2019-01-28 18:20:22
999+
0
0
kafka系统入门教程
一、Kafka简介kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性,但是在实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成,每个实例()成...
分布式
Kafka
存储
唐TTT
2019-01-18 21:01:38
7518
0
0
2019-01-18 21:01:38
999+
0
0
SparkSQL核心知识
一、SparkSQL概述1、概念 官网:http://spark.apache.org/sql/ Spark SQK是Spark用来处理结构化数据(结构化数据可以来自外部结构化数据源也可以通过RDD获取)的一个模块 外部的结构化数据源包括 Json,parquet(默认),rmdbs,hive等2、Spark SQL的优点 mapreduce ...
Hive
SQL
唐TTT
2019-01-18 20:09:46
5149
0
0
2019-01-18 20:09:46
999+
0
0
Spark基于搜狗日志数据分析
针对搜狗实验室的语料数据-用户查询日志(网页搜索用户查询及点击记录)进行Spark数据分析。Data 简介搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。格式说明:数据格式为访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\...
spark
数据挖掘
大数据
唐TTT
2019-01-18 13:49:38
8487
0
0
2019-01-18 13:49:38
999+
0
0
https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
+ 关注