【大数据】字符串、文件操作,英文词频统计预处理

作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2646

1.字符串操作:

  • 解析身份证号:生日、性别、出生地等。
add_num = {'440116':'罗岗区','440106':'天河区','440103':'荔湾区','440104':'越秀区','440105':'海珠区','440111':'白云区',
           '440183':'增城区','440112':'黄埔区','440113':'番禺区','440114':'花都区','440115':'南沙区'}
id = input('请输入身份证号码:')
birth_year = id[6:10]
birth_month = id[10:12]
birth_day = id[12:14]
sex = id[16]
if int(sex)%2 == 0:
    sex=''
else:
    sex=''
print('您输入的身份证号码是(广州市):{}'.format(id))
print('出生地编码:{}
出生时间:{}年{}月{}日
性别:{}'.format(add_num[id[0:6]],birth_year,birth_month,birth_day,sex))

ps:这是一个乱编的身份证号码

  • 凯撒密码编码与解码

在密码学中,恺撒密码是一种最简单且最广为人知的加密技术。它是一种替换加密的技术,明文中的所有字母都在字母表上向后(或向前)按照一个固定数目进行偏移后被替换成密文。例,当偏移量是3的时候,所有的字母A将被替换成D,B变成E,以此类推。

text =input('输入需要加密的单词:')
str=''
text = text.lower()
for i in range(len(text)):
    text.split()
    if(ord(text[i]) >= 97 and ord(text[i]) <= 122):
        str = str + (chr(ord(text[i])+3))
    else:
        str = str + text[i]
print(str)

  • 网址观察与批量生成
for i in range(2,6):
    url='http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html'.format(i)
    print(url)

2.英文词频统计预处理

  • 下载一首英文的歌词或文章或小说,保存为utf8文件。
  • 从文件读出字符串。
  • 将所有大写转换为小写
  • 将所有其他做分隔符(,.?!)替换为空格
  • 分隔出一个一个的单词
  • 并统计单词出现的次数。
f = open('MyFather.txt',mode='r',encoding='utf-8')
text = f.read()
f.close()
text = text.lower()
sep = ',.?!;:_'
for s in sep:
    text = text.replace(s,' ')
print(text.split())
print(text.count('father'),text.count('he'))

原文地址:https://www.cnblogs.com/Richard-V/p/10477717.html