大数据学习

望云阁

| 注册

标签

望云阁

HDFS 2.x 升级到 3.x 实践

背景 HDFS 集群作为大数据最核心的组件，在公司承载了DW、AI、Growth 等重要业务数据的存储重任。随着业务的高速发展，数据的成倍增加，HDFS 集群出现了爆炸式的增长，使用率一直处于很高的水

gxq926 979 0 阅读全文

HDFS RBF 应用

背景随着集群规模的不断扩张，文件数快速增长，目前集群的文件数已高达2.7亿，这带来了许多问题与挑战。首先是文件目录树的扩大导致的NameNode的堆内存持续上涨，其次是Full GC时间越来越长，导

gxq926 1015 0 2021-07-05 阅读全文

分布式环境下如何保证 ID 的唯一性

前言首先说下我们为什么需要分布式 ID，以及分布式 ID 是用来解决什么问题的。当我们的项目还处于单体架构的时候，我们使用数据库的自增 ID 就可以解决很多数据标识问题。但是随着我们的业务发展我们的

gxq926 637 0 2021-07-05 阅读全文

Hive之内部表和外部表

建库创建名为test的数据库(仅当不存在时才创建)，添加备注信息test database： create database if not exists test comment 'this

gxq926 632 0 2021-07-01 阅读全文

Flink高频面试题，附答案解析

1. Flink 的容错机制（checkpoint） Checkpoint容错机制是Flink可靠性的基石，可以保证Flink集群在某个算子因为某些原因(如异常退出)出现故障时，能够将整个应用流图的

gxq926 831 0 2021-06-30 阅读全文

Flink 1.13，面向流批一体的运行时与 DataStream API 优化

一. 流批一体的 Flink 1.1 架构介绍首先看下 Flink 流批一体的整体逻辑。Flink 在早期的时候，虽然是一个可以同时支持流处理和批处理的框架，但是它的流处理和批处理的实现，不管是在

gxq926 972 0 2021-06-30 阅读全文

HDFS的Java API操作

一、HDFS客户端环境准备 1）根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径 2）配置HADOOP_HOME环境变量和path路径二、HDFS的API操作新建Mave

gxq926 909 0 2021-06-30 阅读全文

Hadoop——数据压缩

1、压缩概述压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下，尤其是数据规模很大和工作负载密集的情况下，使用数据压缩显得非常重要。在这

gxq926 773 0 阅读全文

Spark 的性能调优

下面这些关于 Spark 的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。基本概念和原则首先，要搞清楚 Spark 的几个基本概念和原则，否则系统的性能调优无从谈起：

gxq926 912 0 阅读全文

HDFS NameNode内存全景

一、概述从整个HDFS系统架构上看，NameNode是其中最重要、最复杂也是最容易出现问题的地方，而且一旦NameNode出现故障，整个Hadoop集群就将处于不可服务的状态，同时随着数据规模和集群

gxq926 887 0 2021-06-28 阅读全文

ZooKeeper集群解析

一、ZooKeeper集群中的角色 Leader 集群工作机制中的核心事务请求的唯一调度和处理者，保证集群事务处理的顺序集群内部个服务器的调度者(管理 follower,数据同步)，为客户端提供读和写

gxq926 650 0 2021-06-28 阅读全文

如何利用 Flink CDC 实现数据增量备份到 Clickhouse

挖了很久的CDC坑，今天打算填一填了。本文我们首先来介绍什么是CDC，以及CDC工具选型，接下来我们来介绍如何通过Flink CDC抓取mysql中的数据，并把他汇入Clickhouse里，最后我们还

gxq926 850 0 2021-06-25 阅读全文

大数据相关岗位及要求

一、大数据开发工程师： 1.要求编程基础扎实，熟悉Java，熟悉Scala/Shell/Python语言中其中一种更好（社招一般要求两种）；熟悉MySQL等至少一种数据库，熟悉SQL语言，熟悉Li

gxq926 1064 0 2021-06-24 阅读全文

大数据学习or转型

这段时间有一些小伙伴问了关于大数据学习的一些问题，都是在校学生或者已经工作了想转型转型的小伙伴，所以分为两种情况来说明在校学生：在校学生又可以分为计算机相关专业或非计算机相关专业；如果你是计算

gxq926 1029 0 2021-06-24 阅读全文

深入解读 Flink SQL 1.13

一、Flink SQL 1.13 概览 Flink 1.13 是一个社区大版本，解决的 issue 在 1000 个以上，通过上图我们可以看到，解决的问题大部分是关于 Table/SQL 模块，一共

gxq926 784 0 2021-06-24 阅读全文

ElasticSearch常用CURL操作（下）

11 按分词查询 GET movie_index/movie/_search { "query":{ "match": {"name":&q

gxq926 629 0 2021-06-23 阅读全文

HBase数据结构

1 RowKey 与nosql数据库们一样,RowKey是用来检索记录的主键。访问HBASE table中的行，只有三种方式： 1.通过单个RowKey访问 2.通过RowKey的range（正则）

gxq926 646 0 2021-06-23 阅读全文

HBase Shell操作

1 基本操作 1．进入HBase客户端命令行 [atguigu@hadoop102 hbase]$ bin/hbase shell 2．查看帮助命令 hbase(main):001:0> hel

gxq926 708 0 阅读全文

spark 3.0 sql的动态分区裁剪

spark 3.0之后引入的动态分区裁剪机制，这个会大大提升应用的性能，尤其是在bi等场景下，存在大量的where条件操作。动态分区裁剪比谓词下推更复杂点，因为他会整合维表的过滤条件，生成filte

gxq926 1050 0 2021-06-21 阅读全文

对 Kafka 和 Pulsar 进行性能测试后，拉卡拉将消息平台统一换成了 Pulsar

拉卡拉支付成立于 2005 年，是国内领先的第三方支付企业，致力于整合信息科技，服务线下实体，从支付切入，全维度为中小微商户的经营赋能。2011 年成为首批获得《支付业务许可证》企业的一员，2019

gxq926 967 0 2021-06-21 阅读全文

上一页 1 2 3 4 5 6 7 下一页