Java字符串相关的类详解

举报
YuShiwen 发表于 2022/03/30 23:53:42 2022/03/30
【摘要】 目录 一.String类1.初识String2.String的特性3.String对象的创建(以Java 8为例)4.String对象的存储解析5.String与byte[]、char[]直之间的...

一.String类

1.初识String

  • String:字符串,使用一对""引起来表示。

    • 1.String声明为final的,不可被继承
    • 2.String实现了Serializable接口:表示字符串是支持序列化的。
      实现了Comparable接口:表示String可以比较大小
    • 3.String内部定义了final char[] value用于存储字符串数据
    • 4.String:代表不可变的字符序列。简称:不可变性。
      体现:
      1. 当对字符串重新赋值时,需要重写指定内存区域赋值,不能使用原有的value进行赋值。
      2. 当对现有的字符串进行连接操作时,也需要重新指定内存区域赋值,不能使用原有的value进行赋值。
      3. 当调用String的replace()方法修改指定字符或字符串时,也需要重新指定内存区域赋值,不能使用原有的value进行赋值。
    • 5.通过字面量的方式(区别于new)给一个字符串赋值,此时的字符串值声明在字符串常量池中。
    • 6.字符串常量池中是不会存储相同内容的字符串的。

    以上部分内容可体现在如下代码中:

String s1 = "abc";//字面量的定义方式
String s2 = "abc";
s1 = "hello";

System.out.println(s1 == s2);//false

System.out.println(s1);//hello
System.out.println(s2);//abc

System.out.println("*****************");

String s3 = "abc";
System.out.println(s3 == s2);//true
s3 += "def";
System.out.println(s3 == s2);//false
System.out.println(s3);//abcdef
System.out.println(s2);//abc

System.out.println("*****************");

String s4 = "abc";
String s5 = s4.replace('a', 'm');
System.out.println(s4);//abc
System.out.println(s5);//mbc

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24

2.String的特性

  1. Java 程序中的所有字符串字面值(如 “abc” )都作为此类的实例实现。
  2. String是一个final类,代表不可变的字符序列。
  3. 字符串是常量,用双引号引起来表示。它们的值在创建之后不能更改。(注意是常量,不是变量)
  4. String对象的字符内容是存储在一个字符数组value[]中的。存储在如下述代码所示的value中。
    Java 8为char类型的数组,如下:
public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence {
    /** The value is used for character storage. */
    private final char value[];

  
 
  • 1
  • 2
  • 3
  • 4

Java 9以后改为了byte类型的数组,如下:(Java 9引入了Compact Strings来取代Java 6的Compressed Strings,它的实现更过彻底,完全使用byte[]来替代char[],同时新引入了一个字段coder来标识是LATIN1还是UTF16)

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence,
               Constable, ConstantDesc {

    /**
     * The value is used for character storage.
     *
     * @implNote This field is trusted by the VM, and is a subject to
     * constant folding if String instance is constant. Overwriting this
     * field after construction will cause problems.
     *
     * Additionally, it is marked with {@link Stable} to trust the contents
     * of the array. No other facility in JDK provides this functionality (yet).
     * {@link Stable} is safe here, because value is never null.
     */
    @Stable
    private final byte[] value;

    /**
     * The identifier of the encoding used to encode the bytes in
     * {@code value}. The supported values in this implementation are
     *
     * LATIN1
     * UTF16
     *
     * @implNote This field is trusted by the VM, and is a subject to
     * constant folding if String instance is constant. Overwriting this
     * field after construction will cause problems.
     */
    private final byte coder;


  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • Java 9带来了一个经过改进的新字符串,在大多数情况下,它将大大减少String的内存消耗。
  • 每个String的值都内部包含在char[]数组中。每个字符是两个字节,十六位。由于这是UTF-16,因此甚至可以表示所有特殊字符。问题在于,使用ISO-8859-1 / Latin-1时,应用程序中的绝大多数字符串只能由一个字节表示,因为它们不包含特殊字符。如果这样的字符串可以用每个字符仅一个字节表示,那意味着只有一半的内存将用于存储字符串的字符。当然,这并不意味着String对象消耗的全部内存现在仅是原始对象的50%。并非所有由字符串分配的内存都用于存储字符。还有一些其他数据,例如缓存的哈希码或填充。
  • 字符串实例存储在堆中。字符串实际上消耗了很大一部分堆内存。根据一些研究,字符串通常占据堆内存的25%。将String设置为较小的两倍不仅意味着显着减少内存消耗,而且还意味着大量减少垃圾回收开销。
  • 尽管压缩字符串的实现在许多方面都有缺陷,但主要思想仍然有效。实施还不够牢固。在Java 9中,引入了一项新功能,引入了Compact Strings来取代Java 6的Compressed Strings。
  • 字符串现在不再具有char []数组,而是表示为byte []数组。根据它包含的字符,它将使用UTF-16或Latin-1,即-每个字符一个或两个字节。字符串类中有一个新字段-编码器,它指示使用哪个变体。与Compressed Strings不同,默认情况下启用此功能。如有必要(在主要使用UTF-16字符串的情况下),仍可以通过-XX:-CompactStrings禁用它。
  • 该更改不会影响String的任何公共接口或任何其他相关的类。重新设计了许多类以支持新的String表示形式,例如StringBuffer或StringBuilder。
  • 与Compressed Strings不同,新解决方案不包含任何字符串重新包装,因此应具有更高的性能。除了显着减少内存占用量之外,由于要处理的数据要少得多,因此在处理1字节的字符串时还应该提高性能。垃圾收集的开销也将减少。2字节字符串的处理确实意味着对性能的轻微影响,因为还有一些其他逻辑可以处理字符串的两种情况。但是总的来说,应该提高性能,因为2字节字符串应该只代表所有String实例的一小部分。如果在大多数字符串为2字节的情况下出现性能问题,则可以始终禁用该功能。

3.String对象的创建(以Java 8为例)

String的实例化方式:
方式一:通过字面量定义的方式
方式二:通过new + 构造器的方式

String str = "hello";

//本质上this.value = new char[0]; 
String s1 = new String();
//this.value = original.value;
String s2 = new String(String original); 
//this.value = Arrays.copyOf(value, value.length);
String s3 = new String(char[] a);
String s4 = new String(char[] a,int startIndex,int count);

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

4.String对象的存储解析

如下代码:

//通过字面量定义的方式:此时的s1和s2的数据java声明在方法区中的字符串常量池中。
String s1 = "java";
String s2 = "java";
//通过new + 构造器的方式:此时的s3和s4保存的地址值,是数据在堆空间中开辟空间以后对应的地址值。
String s3 = new String("java"); 
String s4 = new String("java");
System.out.println(s1 == s2);//true 
System.out.println(s1 == s3);//false 
System.out.println(s1 == s4);//false 
System.out.println(s3 == s4);//false

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

为何会这样,内存解析图:(方法区中红色部分为字符串常量池)
在这里插入图片描述
可以看出,其实String s3 = new String(“java”)一共创建两个对象:一个是堆空间中new结构,另一个是char[]对应的常量池中的数据:“java”。

接下来例题进一步升级,如下图:

在这里插入图片描述
其原因是因为:

  • 常量与常量的拼接结果在常量池。且常量池中不会存在相同内容的常量。
  • 只要其中有一个是变量,结果就在堆中。
  • 如果拼接的结果调用intern()方法,返回值就在常量池中。

ps:
对于String s1 = "hello"; String s2 = s1 + "world";实际上原来的“hello”字符串对象已经丢弃了,现在在堆空间中产生了一个字符 串s1+“world”(也就是"helloworld")。如果多次执行这些改变串内容的操作,会导致大量副本字符串对象存留在内存中,降低效率。如果这样的操作放到循环中,会极大影响程序的性能。

5.String与byte[]、char[]直之间的转换

  1. String 与 byte[]之间的转换:
    编码:String --> byte[]:调用String的getBytes()
    解码:byte[] --> String:调用String的构造器
    编码:字符串 -->字节 (看得懂 —>看不懂的二进制数据)
    解码:编码的逆过程,字节 --> 字符串 (看不懂的二进制数据 —> 看得懂)
    说明:解码时,要求解码使用的字符集必须与编码时使用的字符集一致,否则会出现乱码。
String str1 = "abc123中国";
byte[] bytes = str1.getBytes();//使用默认的字符集UTF-8,进行编码。
System.out.println(Arrays.toString(bytes));

byte[] gbks = str1.getBytes("gbk");//使用gbk字符集进行编码。
System.out.println(Arrays.toString(gbks));

System.out.println("******************");

String str2 = new String(bytes);//使用默认的字符集,进行解码。
System.out.println(str2);

String str3 = new String(gbks);
System.out.println(str3);//出现乱码。原因:编码集和解码集不一致!


String str4 = new String(gbks, "gbk");
System.out.println(str4);//没有出现乱码。原因:编码集和解码集一致!

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  1. String 与 char[]之间的转换:
    String --> char[]:调用String的toCharArray()
    char[] --> String:调用String的构造器
String str1 = "abc123";

char[] charArray = str1.toCharArray();
for (int i = 0; i < charArray.length; i++) {
    System.out.println(charArray[i]);
}

char[] arr = new char[]{'h','e','l','l','o'};
String str2 = new String(arr);
System.out.println(str2);

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

6.String中常用方法

int length():返回字符串的长度: return value.length
char charAt(int index): 返回某索引处的字符return value[index]
boolean isEmpty():判断是否是空字符串:return value.length == 0
String toLowerCase():使用默认语言环境,将 String 中的所有字符转换为小写
String toUpperCase():使用默认语言环境,将 String 中的所有字符转换为大写
String trim():返回字符串的副本,忽略前导空白和尾部空白
boolean equals(Object obj):比较字符串的内容是否相同
boolean equalsIgnoreCase(String anotherString):与equals方法类似,忽略大小写
String concat(String str):将指定字符串连接到此字符串的结尾。 等价于用“+”
int compareTo(String anotherString):比较两个字符串的大小。
String substring(int beginIndex):返回一个新的字符串,它是此字符串的从beginIndex开始截取到最后的一个子字符串。
String substring(int beginIndex, int endIndex) :返回一个新字符串,它是此字符串从beginIndex开始截取到endIndex(不包含)的一个子字符串。

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

ps:类似于String substring(int beginIndex, int endIndex)方法,一般都是左闭右开,即[beginIndex, endIndex)。

boolean endsWith(String suffix):测试此字符串是否以指定的后缀结束
boolean startsWith(String prefix):测试此字符串是否以指定的前缀开始
boolean startsWith(String prefix, int toffset):测试此字符串从指定索引开始的子字符串是否以指定前缀开始
boolean contains(CharSequence s):当且仅当此字符串包含指定的 char 值序列时,返回 true
int indexOf(String str):返回指定子字符串在此字符串中第一次出现处的索引
int indexOf(String str, int fromIndex):返回指定子字符串在此字符串中第一次出现处的索引,从指定的索引开始
int lastIndexOf(String str):返回指定子字符串在此字符串中最右边出现处的索引
int lastIndexOf(String str, int fromIndex):返回指定子字符串在此字符串中最后一次出现处的索引,从指定的索引开始反向搜索

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

ps:indexOf和lastIndexOf方法如果未找到都是返回-1

替换:
String replace(char oldChar, char newChar):返回一个新的字符串,它是通过用 newChar 替换此字符串中出现的所有 oldChar 得到的。
String replace(CharSequence target, CharSequence replacement):使用指定的字面值替换序列替换此字符串所有匹配字面值目标序列的子字符串。
String replaceAll(String regex, String replacement):使用给定的 replacement 替换此字符串所有匹配给定的正则表达式的子字符串。
String replaceFirst(String regex, String replacement):使用给定的 replacement 替换此字符串匹配给定的正则表达式的第一个子字符串。
匹配:
boolean matches(String regex):告知此字符串是否匹配给定的正则表达式。
切片:
String[] split(String regex):根据给定正则表达式的匹配拆分此字符串。
String[] split(String regex, int limit):根据匹配给定的正则表达式来拆分此字符串,最多不超过limit个,如果超过了,剩下的全部都放到最后一个元素中。







  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
    @Test
    public void toTest(){
        String str1 = "南山南,北秋悲,南山有谷堆,南风南,北海北,北海有墓碑!";
        String str2 = str1.replace('南', '东');

        System.out.println(str1);
        System.out.println(str2);


        String str3 = str1.replace("南山", "东海");
        System.out.println(str3);

        System.out.println("*************************");
        String str = "12hello34world5java7891mysql456";
        //把字符串中的数字替换成","
        String string = str.replaceAll("\\d+", ",");
        System.out.println(string);
        //把字符串中的数字替换成",",如果结果中开头和结尾有","的话去掉
        String string1 = str.replaceAll("\\d+", ",").replaceAll("^,|,$", "");
        System.out.println(string1);

        System.out.println("*************************");
        str = "12345";
        //判断str字符串中是否全部有数字组成,即有1-n个数字组成
        boolean matches = str.matches("\\d+");
        System.out.println(matches);
        String tel = "0571-4534289";
        //判断这是否是一个杭州的固定电话
        boolean result = tel.matches("0571-\\d{7,8}");
        System.out.println(result);


        System.out.println("*************************");
        str = "hello|world|java";
        String[] strs = str.split("\\|");
        for (int i = 0; i < strs.length; i++) {
            System.out.println(strs[i]);
        }
        System.out.println();
        str2 = "hello.world.java";
        String[] strs2 = str2.split("\\.",2);
        for (int i = 0; i < strs2.length; i++) {
            System.out.println(strs2[i]);
        }

    }

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46

上述代码输出结果:

南山南,北秋悲,南山有谷堆,南风南,北海北,北海有墓碑!
东山东,北秋悲,东山有谷堆,东风东,北海北,北海有墓碑!
东海南,北秋悲,东海有谷堆,南风南,北海北,北海有墓碑!
*************************
,hello,world,java,mysql,
hello,world,java,mysql
*************************
true
true
*************************
hello
world
java

hello
world.java

Process finished with exit code 0

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18

二.StringBuffer类

1.StringBuffer类概述

StringBuffer就是为了解决大量拼接字符串时产生很多中间对象问题而提供的一个类,提供append和add方法,可以将字符串添加到已有序列的末尾或指定位置,它的本质是一个线程安全的可修改的字符序列,把所有修改数据的方法都加上了synchronized。但是保证了线程安全是需要性能的代价的。

  • java.lang.StringBuffer代表可变的字符序列,JDK1.0中声明,可以对字符 串内容进行增删,此时不会产生新的对象。
  • 很多方法与String相同。
  • 作为参数传递时,方法内部可以改变值。
  • StringBuffer类不同于String,其对象必须使用构造器生成。有三个构造器:
    • StringBuffer():初始容量为16的字符串缓冲区
    • StringBuffer(int size):构造指定容量的字符串缓冲区
    • StringBuffer(String str):将内容初始化为指定字符串内容

2.StringBuffer中常用的方法

StringBuffer append(xxx):提供了很多的append()方法,用于进行字符串拼接
StringBuffer delete(int start,int end):删除指定位置的内容
StringBuffer replace(int start, int end, String str):把[start,end)位置替换为str
StringBuffer insert(int offset, xxx):在指定位置插入xxx
StringBuffer reverse() :把当前字符序列逆转
public int indexOf(String str):返回指定子字符串第一次出现的字符串内的索引
public String substring(int start,int end):返回一个从start开始到end索引结束的左闭右开区间的子字符串
public int length():返回其真实存在的字符长度
public char charAt(int n ):得到指定位置的字符
public void setCharAt(int n ,char ch):设置指定位置的字符

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

总结:

    增:append(xxx)
    删:delete(int start,int end)
    改:setCharAt(int n ,char ch) / replace(int start, int end, String str)
    查:charAt(int n )
    插:insert(int offset, xxx)
    长度:length();
    *遍历:for() + charAt() / toString()

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

具体可参考Java API文档。

三.StringBuilder类概述

在很多情况下我们的字符串拼接操作不需要线程安全,这时候StringBuilder登场了,StringBuilder是JDK1.5发布的,它和StringBuffer本质上没什么区别,就是去掉了保证线程安全的那部分,减少了开销。
StringBuilder 和 StringBuffer 非常类似,均代表可变的字符序列,而且提供相关功能的方法也一样。

四.String、StringBuffer、StringBuilder三者的异同

1.异同

  • String:不可变的字符序列;底层使用char[]存储。(Java 9 之后是byte[])
  • StringBuffer:可变的字符序列;线程安全的,效率低;底层使用char[]存储。(Java 9 之后是byte[])
  • StringBuilder:可变的字符序列;jdk5.0新增的,线程不安全的,效率高;底层使用char[]存储。(Java 9 之后是byte[])

2.具体分析

String str = new String();//相当于char[] value = new char[0];
String str1 = new String("abc");//char[] value = new char[]{'a','b','c'};

StringBuffer sb1 = new StringBuffer();//char[] value = new char[16];底层创建了一个长度是16的数组。
System.out.println(sb1.length());//0
sb1.append('a');//value[0] = 'a';
sb1.append('b');//value[1] = 'b';

StringBuffer sb2 = new StringBuffer("abc");//char[] value = new char["abc".length() + 16];

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
StringBuffer和StringBuilder扩容问题:
如果要添加的数据底层数组盛不下了,那就需要扩容底层的数组。默认情况下,扩容为原来容量的2+ 2,同时将原有数组中的元素复制到新的数组中。
同时,建议大家开发中使用:StringBuffer(int capacity)StringBuilder(int capacity).


  
 
  • 1
  • 2
  • 3
  • 4

3.三者效率比较

对比String、StringBuffer、StringBuilder三者的效率:
从高到低排列:StringBuilder > StringBuffer > String

文章来源: blog.csdn.net,作者:Mr.Yushiwen,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/MrYushiwen/article/details/108897790

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。