leetcode刷题笔记八 字符串转整性 Scala版本

leetcode刷题笔记八 字符串转整性 Scala版本

源地址: leetcode刷题笔记八 字符串转整性 Scala版本

问题描述:

  • Only the space character ' ' is considered as whitespace character.
  • Assume we are dealing with an environment which could only store integers within the 32-bit signed integer range: [−231, 231 − 1]. If the numerical value is out of the range of representable values, INT_MAX (231 − 1) or INT_MIN (−231) is returned.

Example 1:

Input: "42"
Output: 42

Example 2:

Input: "   -42"
Output: -42
Explanation: The first non-whitespace character is '-', which is the minus sign.
             Then take as many numerical digits as possible, which gets 42.

Example 3:

Input: "4193 with words"
Output: 4193
Explanation: Conversion stops at digit '3' as the next character is not a numerical digit.

Example 4:

Input: "words and 987"
Output: 0
Explanation: The first non-whitespace character is 'w', which is not a numerical 
             digit or a +/- sign. Therefore no valid conversion could be performed.

Example 5:

Input: "-91283472332"
Output: -2147483648
Explanation: The number "-91283472332" is out of the range of a 32-bit signed integer.
             Thefore INT_MIN (−231) is returned.

简要思路分析:

本题的关键点主要是判断AtoI的极端形式,主要是筛选出失败的字符串形式。一种是正常对Str进行处理,严格按照各种形式去判断Str是否合法;另一种是通过正则表达式完成对Str的筛选,然后对Str进行分析判断,这里我才用的正则方法。

代码补充:

object Solution {
  def myAtoi(str: String): Int = {
     """^s*([+-]?)0*(d+)""".r.findFirstMatchIn(str) match {

         case Some(m) => {
         val sign = m.group(1)
           println(sign)
         val nums = m.group(2)
           println(nums)
         (sign+nums).toDouble match {
           case n if n > Int.MaxValue => return Int.MaxValue
           case n if n < Int.MinValue => return Int.MinValue
           case n => return n.toInt
         }
         }
         case None => return 0
     }
   }
}

知识补充:

Scala正则相关知识:

表达式 匹配规则
^ 匹配输入字符串开始的位置。
$ 匹配输入字符串结尾的位置。
. 匹配除" "之外的任何单个字符。
[...] 字符集。匹配包含的任一字符。例如,"[abc]"匹配"plain"中的"a"。
[^...] 反向字符集。匹配未包含的任何字符。例如,"[^abc]"匹配"plain"中"p","l","i","n"。
A 匹配输入字符串开始的位置(无多行支持)
z 字符串结尾(类似$,但不受处理多行选项的影响)
 字符串结尾或行尾(不受处理多行选项的影响)
re* 重复零次或更多次
re+ 重复一次或更多次
re? 重复零次或一次
re{ n} 重复n次
re{ n,}
re{ n, m} 重复n到m次
a|b 匹配 a 或者 b
(re) 匹配 re,并捕获文本到自动命名的组里
(?: re) 匹配 re,不捕获匹配的文本,也不给此分组分配组号
(?> re) 贪婪子表达式
w 匹配字母或数字或下划线或汉字
W 匹配任意不是字母,数字,下划线,汉字的字符
s 匹配任意的空白符,相等于 [ f]
S 匹配任意不是空白符的字符
d 匹配数字,类似 [0-9]
D 匹配任意非数字的字符
G 当前搜索的开头
换行符
 通常是单词分界位置,但如果在字符类里使用代表退格
B 匹配不是单词开头或结束的位置
制表符
Q 开始引号:Q(a+b)*3E 可匹配文本 "(a+b)*3"。
E 结束引号:Q(a+b)*3E 可匹配文本 "(a+b)*3"。

正则表达式实例

实例 描述
. 匹配除" "之外的任何单个字符。
[Rr]uby 匹配 "Ruby" 或 "ruby"
rub[ye] 匹配 "ruby" 或 "rube"
[aeiou] 匹配小写字母 :aeiou
[0-9] 匹配任何数字,类似 [0123456789]
[a-z] 匹配任何 ASCII 小写字母
[A-Z] 匹配任何 ASCII 大写字母
[a-zA-Z0-9] 匹配数字,大小写字母
[^aeiou] 匹配除了 aeiou 其他字符
[^0-9] 匹配除了数字的其他字符
d 匹配数字,类似: [0-9]
D 匹配非数字,类似: [^0-9]
s 匹配空格,类似: [ f]
S 匹配非空格,类似: [^ f]
w 匹配字母,数字,下划线,类似: [A-Za-z0-9_]
W 匹配非字母,数字,下划线,类似: [^A-Za-z0-9_]
ruby? 匹配 "rub" 或 "ruby": y 是可选的
ruby* 匹配 "rub" 加上 0 个或多个的 y。
ruby+ 匹配 "rub" 加上 1 个或多个的 y。
d{3} 刚好匹配 3 个数字。
d{3,} 匹配 3 个或多个数字。
d{3,5} 匹配 3 个、4 个或 5 个数字。
Dd+ 无分组: + 重复 d
(Dd)+/ 分组: + 重复 Dd 对
([Rr]uby(, )?)+ 匹配 "Ruby"、"Ruby, ruby, ruby",等等

正则表达式捕获与非捕获

这一部分主要参考https://blog.csdn.net/liuxiao723846/article/details/83277488 和 https://blog.csdn.net/liuxiao723846/article/details/83278067

分组:正则表达式中的分组又称为子表达式,就是把一个正则表达式的全部或部分当做一个整体进行处理,分成一个或多个组。其中分组是使用“()”表示的。进行分组之后“()”里面的内容就会被当成一个整体来处理。

分组进一步可分为捕获组与非捕获组。

1、捕获组(capture group):

捕获组:就是把正则表达式中子表达式匹配的内容,保存到内存中以数字编号或显式命名的组里,方便后面引用。当然,这种引用既可以是在正则表达式内部,也可以是在正则表达式外部。

捕获组编号规则:

从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。需要注意的是组0永远代表的是整个正则式

2、非捕获组

1)为什么要有非捕获组:

一旦使用了“()”,就会默认为是捕获组,从而将“()”内表达式匹配的内容捕获到组里。但是有些情况下,不得不用“()”,但并不关心“()”中匹配的内容是什么,后面也不会引用捕获到的内容,这带来了一个副作用,记录这些捕获组就会占用内存,降低匹配效率。设计非捕获组的目的就是为了抵消这种副作用。 只进行分组,并不将子表达式匹配到的内容捕获到组里。

2)使用:

以 (?) 开头的组是非捕获组,它不捕获文本 也不针对组合计进行计数。就是说,如果小括号中以?号开头,那么这个分组就不会捕获文本,当然也不会有组的编号,因此也不存在反向引用。

当一个正则表达式被分组后,每个组将会自动的分配一个组号用于代表该组的表达式,其中,组号的编制规则为:从左到右、以分组的左括号“(”为标志,第一个分组的组号为1,第二个分组的组号为2,以此类推。反向引用提供查找重复字符组的方便的方法。它们可被认为是再次匹配同一个字符串的快捷指令

如本文中使用1组捕获sign标志,2组捕获nums标志

(boy)1          //相当于(boy)(boy),匹配boyboy
(boy)(girl)12  //匹配boygirlboygirl
===============================================
对比(w)1和的区别:
(w)1    //该正则匹配的是出现两次的字符,1将重复匹配(w)出现的内容!例如匹配aa、bb
(w)(w)  //该正则只是简单的匹配两个字符,例如匹配ab,aa等。注意区别!
原文地址:https://www.cnblogs.com/ganshuoos/p/12677214.html