关于postgresql取重的信息

【转】PostgreSQL多行变一行

PGSQL多行聚合，PGSQL多行合并为一行，PGSQL多行合并

创新互联是一家集网站建设,二七企业网站建设,二七品牌网站建设,网站定制,二七网站建设报价,网络营销,网络优化,二七网站推广为一体的创新建站企业，帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿，时刻以成就客户成长自我，坚持不断学习、思考、沉淀、净化自己，让我们为更多的企业打造出实用型网站。

《PostgreSQL 多行变一行》

《PostgreSQL官方文档-聚集函数》

array_agg(distinct(字段名)) 去重后可以获得拼接唯一的字段

使用sqoop将hive中的数据导入关系型数据库怎么去重

直接导入hive表

sqoop import --connect jdbc:postgresql://ip/db_name--username user_name --table table_name --hive-import -m 5

内部执行实际分三部，1.将数据导入hdfs（可在hdfs上找到相应目录），2.创建hive表名相同的表，3，将hdfs上数据传入hive表中

sqoop根据postgresql表创建hive表

sqoop create-hive-table --connect jdbc:postgresql://ip/db_name --username user_name --table table_name --hive-table hive_table_name( --hive-partition-key partition_name若需要分区则加入分区名称)

导入hive已经创建好的表中

sqoop import --connect jdbc:postgresql://ip/db_name --username user_name --table table_name --hive-import -m 5 --hive-table hive_table_name (--hive-partition-key partition_name --hive-partition-value partititon_value);

使用query导入hive表

sqoop import --connect jdbc:postgresql://ip/db_name --username user_name --query "select ,* from retail_tb_order where \$CONDITIONS" --hive-import -m 5 --hive-table hive_table_name (--hive-partition-key partition_name --hive-partition-value partititon_value);

注意：$CONDITIONS条件必须有，query子句若用双引号，则$CONDITIONS需要使用\转义，若使用单引号，则不需要转义。

云数据库RDS是什么？

云数据RDS是关系型数据库服务（Relational Database Service）的简称，是一种即开即用、稳定可靠、可弹性伸缩的在线数据库服务。具有多重安全防护措施和完善的性能监控体系，并提供专业的数据库备份、恢复及优化方案，使您能专注于应用开发和业务发展。

关系模型就是指二维表格模型,因而一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。当前主流的关系型数据库有Oracle、DB2、PostgreSQL、Microsoft SQL Server、Microsoft Access、MySQL等。

云关系型数据库（RDS）是一种稳定可靠、可弹性伸缩的在线数据库服务，支持MySQL、SQL Server、PostgreSQL、PPAS（Postgre Plus Advanced Server，高度兼容Oracle数据库）、MariaDB等引擎，并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案。

云数据库的特性有：实例创建快速、支持只读实例、读写分离、故障自动切换、数据备份、Binlog备份、SQL审计、访问白名单、监控与消息通知等。

扩展资料：

云数据库RDS优势

1、轻松部署。用户能够在RDS控制台轻松的完成数据库申请和创建，RDS实例在几分钟内就可以准备就绪并投入使用。用户通过RDS提供的功能完善的控制台，对所有实例进行统一管理。

2、高可靠。云数据库具有故障自动单点切换、数据库自动备份等功能，保证实例高可用和数据安全。免费提供7天数据备份，可恢复或回滚至7天内任意备份点。

3、低成本。DS支付的费用远低于自建数据库所需的成本，用户可以根据自己的需求选择不同套餐，使用很低的价格得到一整套专业的数据库支持服务。

参考资料来源：百度百科—云数据库

mysql数据类型中blob和binary的区别？

MySQL 数据类型细分下来，大概有以下几类：

数值，典型代表为 tinyint,int,bigint

浮点/定点，典型代表为 float,double,decimal 以及相关的同义词

字符串，典型代表为 char,varchar

时间日期，典型代表为 date,datetime,time,timestamp

二进制，典型代表为 binary,varbinary

位类型

枚举类型

集合类型

大对象，比如 text,blob

json 文档类型

一、数值类型（不是数据类型，别看错了）如果用来存放整数，根据范围的不同，选择不同的类型。

以上是几个整数选型的例子。整数的应用范围最广泛，可以用来存储数字，也可以用来存储时间戳，还可以用来存储其他类型转换为数字后的编码，如 IPv4 等。示例 1用 int32 来存放 IPv4 地址，比单纯用字符串节省空间。表 x1，字段 ipaddr，利用函数 inet_aton，检索的话用函数 inet_ntoa。

查看磁盘空间占用，t3 占用最大，t1 占用最小。所以说如果整数存储范围有固定上限，并且未来也没有必要扩容的话，建议选择最小的类型，当然了对其他类型也适用。root@ytt-pc:/var/lib/mysql/3305/ytt# ls -sihl总用量 3.0G3541825 861M -rw-r----- 1 mysql mysql 860M 12月 10 11:36 t1.ibd3541820 989M -rw-r----- 1 mysql mysql 988M 12月 10 11:38 t2.ibd3541823 1.2G -rw-r----- 1 mysql mysql 1.2G 12月 10 11:39 t3.ibd

二、浮点数 / 定点数先说浮点数，float 和 double 都代表浮点数，区别简单记就是 float 默认占 4 Byte。float(p) 中的 p 代表整数位最小精度。如果 p 24 则直接转换为 double，占 8 Byte。p 最大值为 53，但最大值存在计算不精确的问题。再说定点数，包括 decimal 以及同义词 numeric，定点数的整数位和小数位分别存储，有效精度最大不能超过 65。所以区别于 float 的在于精确存储，必须需要精确存储或者精确计算的最好定义为 decimal 即可。示例 3创建一张表 y1，分别给字段 f1,f2,f3 不同的类型。mysql-(ytt/3305)-create table y1(f1 float,f2 double,f3 decimal(10,2));Query OK, 0 rows affected (0.03 sec)

三、字符类型字符类型和整形一样，用途也很广。用来存储字符、字符串、MySQL 所有未知的类型。可以简单说是万能类型！

char(10) 代表最大支持 10 个字符存储，varhar(10) 虽然和 char(10) 可存储的字符数一样多，不同的是 varchar 类型存储的是实际大小，char 存储的理论固定大小。具体的字节数和字符集相关。示例 4例如下面表 t4 ，两个字段 c1,c2，分别为 char 和 varchar。mysql-(ytt/3305)-create table t4 (c1 char(20),c2 varchar(20));Query OK, 0 rows affected (0.02 sec)

所以在 char 和 varchar 选型上，要注意看是否合适的取值范围。比如固定长度的值，肯定要选择 char；不确定的值，则选择 varchar。

四、日期类型日期类型包含了 date,time,datetime,timestamp，以及 year。year 占 1 Byte，date 占 3 Byte。　

time,timestamp,datetime 在不包含小数位时分别占用 3 Byte,4 Byte,8 Byte；小数位部分另外计算磁盘占用，见下面表格。

请点击输入图片描述

注意：timestamp 代表的时间戳是一个 int32 存储的整数，取值范围为 '1970-01-01 00:00:01.000000' 到 '2038-01-19 03:14:07.999999'；datetime 取值范围为 '1000-01-01 00:00:00.000000' 到 '9999-12-31 23:59:59.999999'。

综上所述，日期这块类型的选择遵循以下原则：

1. 如果时间有可能超过时间戳范围，优先选择 datetime。2. 如果需要单独获取年份值，比如按照年来分区，按照年来检索等，最好在表中添加一个 year 类型来参与。3. 如果需要单独获取日期或者时间，最好是单独存放，而不是简单的用 datetime 或者 timestamp。后面检索时，再加函数过滤，以免后期增加 SQL 编写带来额外消耗。

4. 如果有保存毫秒类似的需求，最好是用时间类型自己的特性，不要直接用字符类型来代替。MySQL 内部的类型转换对资源额外的消耗也是需要考虑的。

示例 5

建立表 t5，对这些可能需要的字段全部分离开，这样以后写 SQL 语句的时候就很容易了。

当然了，这种情形占用额外的磁盘空间。如果想在易用性与空间占用量大这两点来折中，可以用 MySQL 的虚拟列来实时计算。比如假设 c5 字段不存在，想要得到 c5 的结果。mysql-(ytt/3305)-alter table t5 drop c5, add c5 year generated always as (year(c1)) virtual;Query OK, 1 row affected (2.46 sec)Records: 1 Duplicates: 0 Warnings: 0

五、二进制类型

binary 和 varbinary 对应了 char 和 varchar 的二进制存储，相关的特性都一样。不同的有以下几点：

binary(10)/varbinary(10) 代表的不是字符个数，而是字节数。

行结束符不一样。char 的行结束符是 \0，binary 的行结束符是 0x00。

由于是二进制存储，所以字符编码以及排序规则这类就直接无效了。

示例 6

来看这个 binary 存取的简单示例，还是之前的变量 @a。

切记！这里要提前计算好 @a 占用的字节数，以防存储溢出。

六、位类型

bit 为 MySQL 里存储比特位的类型，最大支持 64 比特位，直接以二进制方式存储，一般用来存储状态类的信息。比如，性别，真假等。具有以下特性：

1. 对于 bit(8) 如果单纯存放 1 位，左边以 0 填充 00000001。2. 查询时可以直接十进制来过滤数据。3. 如果此字段加上索引，MySQL 不会自己做类型转换，只能用二进制来过滤。

示例 7

创建表 c1, 字段性别定义一个比特位。mysql-(ytt/3305)-create table c1(gender bit(1));Query OK, 0 rows affected (0.02 sec)

mysql-(ytt/3305)-select cast(gender as unsigned) 'f1' from c1;+------+| f1 |+------+| 0 || 1 |+------+2 rows in set (0.00 sec)

过滤数据也一样，二进制或者直接十进制都行。mysql-(ytt/3305)-select conv(gender,16,10) as gender \ - from c1 where gender = b'1'; +--------+| gender |+--------+| 1 |+--------+1 row in set (0.00 sec) mysql-(ytt/3305)-select conv(gender,16,10) as gender \ - from c1 where gender = '1';+--------+| gender |+--------+| 1 |+--------+1 row in set (0.00 sec)

其实这样的场景，也可以定义为 char(0)，这也是类似于 bit 非常优化的一种用法。

mysql-(ytt/3305)-create table c2(gender char(0));Query OK, 0 rows affected (0.03 sec)

那现在我给表 c1 简单的造点测试数据。

mysql-(ytt/3305)-select count(*) from c1;+----------+| count(*) |+----------+| 33554432 |+----------+1 row in set (1.37 sec)

把 c1 的数据全部插入 c2。

mysql-(ytt/3305)-insert into c2 select if(gender = 0,'',null) from c1;Query OK, 33554432 rows affected (2 min 18.80 sec)Records: 33554432 Duplicates: 0 Warnings: 0

两张表的磁盘占用差不多。root@ytt-pc:/var/lib/mysql/3305/ytt# ls -sihl总用量 1.9G4085684 933M -rw-r----- 1 mysql mysql 932M 12月 11 10:16 c1.ibd4082686 917M -rw-r----- 1 mysql mysql 916M 12月 11 10:22 c2.ibd

检索方式稍微有些不同，不过效率也差不多。所以说，字符类型不愧为万能类型。

七、枚举类型

枚举类型，也即 enum。适合提前规划好了所有已经知道的值，且未来最好不要加新值的情形。枚举类型有以下特性：

1. 最大占用 2 Byte。2. 最大支持 65535 个不同元素。3. MySQL 后台存储以下标的方式，也就是 tinyint 或者 smallint 的方式，下标从 1 开始。4. 排序时按照下标排序，而不是按照里面元素的数据类型。所以这点要格外注意。

示例 8

创建表 t7。mysql-(ytt/3305)-create table t7(c1 enum('mysql','oracle','dble','postgresql','mongodb','redis','db2','sql server'));Query OK, 0 rows affected (0.03 sec)

八、集合类型

集合类型 SET 和枚举类似，也是得提前知道有多少个元素。SET 有以下特点：

1. 最大占用 8 Byte，int64。2. 内部以二进制位的方式存储，对应的下标如果以十进制来看，就分别为 1,2,4,8，...，pow(2,63)。3. 最大支持 64 个不同的元素，重复元素的插入，取出来直接去重。4. 元素之间可以组合插入，比如下标为 1 和 2 的可以一起插入，直接插入 3 即可。

示例 9

定义表 c7 字段 c1 为 set 类型，包含了 8 个值，也就是下表最大为 pow(2,7)。

mysql-(ytt/3305)-create table c7(c1 set('mysql','oracle','dble','postgresql','mongodb','redis','db2','sql server'));Query OK, 0 rows affected (0.02 sec)

插入 1 到 128 的所有组合。

mysql-(ytt/3305)-INSERT INTO c7WITH RECURSIVE ytt_number (cnt) AS ( SELECT 1 AS cnt UNION ALL SELECT cnt + 1 FROM ytt_number WHERE cnt pow(2, 7) )SELECT *FROM ytt_number;Query OK, 128 rows affected (0.01 sec)Records: 128 Duplicates: 0 Warnings: 0

九、数据类型在存储函数中的用法

函数里除了显式声明的变量外，默认 session 变量的数据类型很弱，随着给定值的不同随意转换。

示例 10

定义一个函数，返回两个给定参数的乘积。定义里有两个变量，一个是 v_tmp 显式定义为 int64，另外一个 @vresult 随着给定值的类型随意变换类型。

简单调用下。

mysql-(ytt/3305)-select ytt_sample_data_type(1111,222) 'result';+--------------------------+| result |+--------------------------+| The result is: '246642'. |+--------------------------+1 row in set (0.00 sec)

总结

本篇把 MySQL 基本的数据类型做了简单的介绍，并且用了一些容易理解的示例来梳理这些类型。我们在实际场景中，建议选择适合最合适的类型，不建议所有数据类型简单的最大化原则。比如能用 varchar(100)，不用 varchar(1000)。

数据分析校招sql50题-1

1.查询" 01 "课程比" 02 "课程成绩高的学生的信息及课程分数

第一步先在分数表中把课程1和课程2的数据分别筛选出之后对比课程1比课程2高的学生id，

第二步结果再与学生表关联

结果：

ps：

2.查询平均成绩大于等于 60 分的同学的学生编号和学生姓名和平均成绩

'''

select sname, student.sid , r.avg_score from student right join

(select sid, avg(score) as avg_score from sc group by sid having avg(score) 60) r

on student.sid = r.sid

PS：

第一步从sc表中将sid去重查出后与student表关联

第二部将符合第一步结果的数据从student表中展示出来

结果：

4.查询所有同学的学生编号、学生姓名、选课总数、所有课程的成绩总和

第一步将sc表中学生按sid分组，并聚合计算数量、总分。同时注意子查询中聚合函数要有别名( as cnum、as sum_score)

第二步将第一步中结果与student表关联

结果：

第一步从teacher表中找到张三老师tid

第二步用tid关联course表找到张三老师教授课程的cid

第三步用cid关联score表找到上过张三老师课程的学生的sid

第四步用第三步的sid关联student表查询出具体符合条件的学生的详细信息

太笨了，多表联合查询：

结果：

排除学全所有课程之外的学生id（not in语法），再与student表关联

结果：

8.查询至少有一门课与学号为" 01 "的同学所学相同的同学的信息

第一步将学号为01的学生所学课程id从sc表中筛选出来

第二步查询sc表中所学课程id在上面得到的结果中的学生id（in语法），去重

第三步查询student表中学生id在上面得到结果中的学生信息（in语法）

mysql有group_concat函数参考

postgresql稍微麻烦点。

---ARRAY_AGG()函数是一个聚合函数，它接受一组值并返回一个数组，其中将输入集中的每个值分配给该数组的元素。

----unnest(anyarray)

返回值:setof anyelement(可以理解为一个(临时)表)

说明:unnest函数将输入的数组转换成一个表,这个表的每一列都代表相应的一个数组中的元素。如果unnest与其他字段一起出现在select中，就相当于其他字段进行了一次join。

----array_to_string("数组",",") 即把数组转化为字符串，并用“,”连接(使用提供的分隔符连接数组元素)

结果:

第一步查出张三老师教授的课程id

第二步在sc表中查出上过张三老师课程的学生id

第三步将结果的非（not in）去筛选student表