大数据学习

望云阁

| 注册

标签

望云阁

Elasticsearch架构不止是搜索引擎，还可以其他业务场景

1、Elasticsearch 不适合做什么？ 1.1 不支持事务不支持：ACID（在写入或更新数据的过程中，为保证事务（transaction）是正确可靠的，所必须具备的四个特性：原子性（atom

gxq926 920 0 2021-06-18 阅读全文

Kafka之时间轮

kafka是一个分布式消息中间件，其高可用高吞吐的特点是大数据领域首选的消息中间件，Kafka是分布式消息队列的顺序读写文件分段组织串联起来思想的鼻祖，包括RocketMq这些消息队列都是借鉴了Kaf

gxq926 780 0 2021-06-18 阅读全文

flink超越Spark的Checkpoint机制

spark streaming的Checkpoint仅仅是针对driver的故障恢复做了数据和元数据的Checkpoint。而本文要讲的flink的checkpoint机制要复杂了很多，它采用的是轻量

gxq926 922 0 2021-06-18 阅读全文

HBase列族优化

随着大数据的越来越普及，HBase也变得越来越流行。使用HBase并不困难，但是如何用好HBase，这确是一个难点。为了合理地使用HBase，尽可能发挥HBase的功能，我们需要根据不同的场景对HBa

gxq926 890 0 2021-06-17 阅读全文

Sqoop导入数据命令及示例

导入数据在Sqoop中，“导入”概念指：从非大数据集群（RDBMS）向大数据集群（HDFS，HIVE，HBASE）中传输数据，叫做：导入，即使用import关键字。 1. RDBMS到HDFS 1)

gxq926 760 0 阅读全文

ElasticSearch常用curl命令

1 查看es中有哪些索引 GET /_cat/indices?v es 中会默认存在一个名为.kibana的索引表头的含义 health green(集群完整) yellow(单点正常、集群不完整)

gxq926 1064 0 2021-06-16 阅读全文

Linux Sqoop安装配置

一、 Sqoop简介 Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQ

gxq926 703 0 2021-06-16 阅读全文

Hive和数据库比较

由于 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language)，因此很容易将 Hive 理解为数据库。其实从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类

gxq926 788 0 2021-06-16 阅读全文

Hive的优缺点

优点操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。避免了去写MapReduce，减少开发人员的学习成本。 Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的

gxq926 963 0 2021-06-16 阅读全文

spark shuffle的几种特殊情况

1.shuffle概览一个spark的RDD有一组固定的分区组成，每个分区有一系列的记录组成。对于由窄依赖变换（例如map和filter）返回的RDD，会延续父RDD的分区信息，以pipeline的

gxq926 783 0 阅读全文

如何从大量数据中找出高频词

题目描述有一个 1GB 大小的文件，文件里每一行是一个词，每个词的大小不超过 16B，内存大小限制是 1MB，要求返回频数最高的 100 个词(Top 100)。解答思路由于内存限制，我们依然无

gxq926 685 0 2021-06-15 阅读全文

如何从 5 亿个数中找出中位数

题目描述从 5 亿个数中找出中位数。数据排序后，位置在最中间的数就是中位数。当样本数为奇数时，中位数为第(N+1)/2个数；当样本数为偶数时，中位数为第N/2个数与第1+N/2个数的均值。解答思

gxq926 730 0 阅读全文

如何关闭CDP中ranger策略的审计

1.概述 CDP集群中的ranger在添加新的策略的时候，默认会启用审计。审计可以帮助我们在查询到历史操作的详细信息。但是随着集群任务量的增长，海量的审计信息会占用大量的磁盘空间。集群使用者可以根据需

gxq926 1219 0 阅读全文

导入 Kerberos Account Manager 凭据失败

1.问题描述 CDP7.1.6集群在启用Kerberos的操作中，导入KDC Account Manager凭证时报如下异常： /opt/cloudera/cm/bin/import_credenti

gxq926 1348 0 2021-06-10 阅读全文

如何跨集群从CDH到CDP迁移Kudu表

1.文档说明本文主要讲述如何通过Kudu 自带的Kudu Command Line Tools 进行Kudu 表迁移。测试环境 1.CDH5.16.1、未启用Kerberos、Kudu 1.7.0

gxq926 1028 0 2021-06-09 阅读全文

Hadoop生态圈技术图谱

当下Hadoop已经成长为一个庞大的体系，貌似只要和海量数据相关的，没有哪个领域缺少Hadoop的身影，下面是一个Hadoop生态系统的图谱，详细的列举了在Hadoop这个生态系统中出现的各种数据工具

gxq926 1023 0 2021-06-09 阅读全文

通过扩展 Spark SQL ，打造自己的大数据分析引擎

Spark SQL 的 Catalyst ，这部分真的很有意思，值得去仔细研究一番，今天先来说说Spark的一些扩展机制吧，上一次写Spark，对其SQL的解析进行了一定的魔改，今天我们按套路来，使用

gxq926 1184 0 阅读全文

一文理解Kafka如何保证消息顺序性

针对消息有序的业务需求，还分为全局有序和局部有序。全局有序：一个Topic下的所有消息都需要按照生产顺序消费。局部有序：一个Topic下的消息，只需要满足同一业务字段的要按照生产顺序消费。例如：T

gxq926 968 0 2021-06-09 阅读全文

Hbase面试题

Hbase是怎么写数据的？ HDFS和HBase各自使用场景 Hbase的存储结构热点现象（数据倾斜）怎么产生的，以及解决方法有哪些 HBase的 rowkey 设计原则 HBase的列簇设计 HB

gxq926 816 0 2021-06-08 阅读全文

Iceberg 数据湖 CDC 数据实时读写方案及原理

一、常见的 CDC 分析方案我们先看一下今天的 topic 需要设计的是什么？输入是一个 CDC 或者 upsert 的数据，输出是 Database 或者是用于大数据 OLAP 分析的存储。我们

gxq926 757 0 阅读全文

上一页 1 2 3 4 5 6 7 下一页