美国在研新药_读取单个PDF

sklearn实战-乳腺癌细胞数据挖掘（博主亲自录制视频）

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

QQ：231469242

读取下载美国在研新药PDF内数据：unii，分子式，分子重量，药品名，who，编码，。。。。

PDF无逻辑规则，不能百分之百提取，只能部分提取

几个默认字段为空


# -*- coding: utf-8 -*-

"""

io.open() is the preferred, higher-level interface to file I/O. It wraps the OS-level file descriptor in an object that you can use to access the file in a Pythonic manner.

os.open() is just a wrapper for the lower-level POSIX syscall. It takes less symbolic (and more POSIX-y) arguments, and returns the file descriptor (a number) that represents the opened file. It does not return a file object; the returned value will not have read() or write() methods.

"""

import re

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

# pip3 install pdfminer3k

from io import StringIO

from io import open

#pdf文件名

pdfFilename="atesidorsen sodium.pdf"

#文件名前缀

frontName="usan/2016/"

#商标文件名

trademark_filename="trademarks.txt"

#赞助商文件名

sponsor_filename="sponsor.txt"

#读取PDF数据

def readPDF(pdfFile):

    rsrcmgr = PDFResourceManager()

    retstr = StringIO()

    laparams = LAParams()

    device = TextConverter(rsrcmgr, retstr, laparams=laparams)

    process_pdf(rsrcmgr, device, pdfFile)

    device.close()

    content = retstr.getvalue()

    retstr.close()

    return content

#规范PDF数据

def Format(str1):

    list2=[]

    #分割成列表

    list1=str1.split("\n")

    for i in list1:

        #if i=="/n":

        if i=='' or i==' 'or i=='  ':

            continue

        list2.append(i)

    return list2

#提取me_usan，药品名

def Get_me_usan(the_list_data):

    return the_list_data[0]    

#提取me_therapeutic

def Get_me_therapeutic(the_list_data):

    for i in the_list_data:

        if "Treatment of" in i:

            return i

#提取me_chemical1 分子式1

def Get_me_chemical1(the_list_data):

    for i in the_list_data:

        if "1. " in i:

            return i

    return ""

#提取me_chemical2 分子式2

def Get_me_chemical2(the_list_data):

    for i in the_list_data:

        if "2. " in i:

            return i

    return ""   

#匹配分子式

def Re_formula(str1):

    #匹配正在表达式

    re_formula=re.compile(r'C(\d)+H(\d)+')

    mo1=re_formula.search(str1)

    if mo1!=None:

        return True

    return False

#提取me_mo_formula，特征包含碳氢CH元素

def Get_me_mo_formula(the_list_data):

    for i in the_list_data:

        #转换为大写

        i=i.upper()

        value=Re_formula(i)

        if value==True:

            return i

    return ""

#提取分子质量me_mo_weight，如果出现MOLECULAR WEIGHT，且下一个值是数字或浮点数，就提取下一个值

def Get_me_mo_weight(the_list_data):

    for count in range(len(the_list_data)):

        #如果出现MOLECULAR WEIGHT，则提取下一个值

        if 'MOLECULAR WEIGHT' in the_list_data[count]:

            value=the_list_data[count+1]

            if type(eval(value)) == int or type(eval(value)) == float:

                return value

    return ""

#从trademarks.txt搜索数据

def Get_txt_contents(filename):

    file=open(filename)

    content=file.readlines()

    content1=[i.replace("\n","") for i in content]

    return content1

#提取me_trademark，从trademarks.txt搜索数据

def Get_me_trademark(the_list_data):

    for i in the_list_data:

        i=i.strip(" ")

        for k in list_trademarks:

            if k in i:

                return i

    return ""

#提取me_sponsor，从sponsor.txt搜索数据

def Get_me_sponsor(the_list_data):

    for i in the_list_data:

        i=i.strip(" ")

        for k in list_sponsors:

            if k in i:

                return i

    return ""    

#匹配CAS正则表达式

def Re_CAS(str1):

    re_CAS=re.compile(r'(\d)+-(\d)+-(\d)+')

    mo1=re_CAS.search(str1)

    if mo1!=None:

        return True

    return False

#提取CAS

def Get_CAS(the_list_data):

    for i in the_list_data:

        value=Re_CAS(i)

        if value==True:

            return i

    return ""

#匹配WHO正则表达式

def Re_WHO(str1):

    re_WHO=re.compile(r'(\d)+')

    mo1=re_WHO.search(str1)

    if mo1!=None:

        return True

    return False

#提取WHO

def Get_WHO(the_list_data):

    for count in range(len(the_list_data)):

        #如果出现MOLECULAR WEIGHT，则提取下一个值

        if 'WHO NUMBER' in the_list_data[count]:

            value=the_list_data[count+1]

            if type(eval(value)) == int:

                return value

    return ""

#匹配UNII正则表达式

def Re_UNII(str1):

    #{10}表示出现10次

    re_UNII=re.compile(r'[A-Za-z0-9]{10}')

    mo1=re_UNII.search(str1)

    if mo1!=None:

        return True

    return False

#提取UNII

def Get_UNII(the_list_data):

    for count in range(len(the_list_data)):

        #如果出现MOLECULAR WEIGHT，则提取下一个值

        if 'UNII' in the_list_data[count]:

            value=the_list_data[count+1]

            if Re_UNII(value)==True:

                return value

    return ""

#获取me_down数据

def Get_me_down(the_list_data):

    name=frontName+pdfFilename

    return name

pdfFile = open(pdfFilename, 'rb')

outputString = readPDF(pdfFile)

list_data=Format(outputString)

me_source=2016

#提取me_usan，药品名

me_usan=Get_me_usan(list_data)

#提取me_therapeutic 治疗疾病

me_therapeutic=Get_me_therapeutic(list_data)

#提取me_therapeutic

me_chemical1=Get_me_chemical1(list_data)

#提取me_chemical2 分子式2

me_chemical2=Get_me_chemical2(list_data)

#提取me_mo_formula，特征包含碳氢CH元素

me_mo_formula=Get_me_mo_formula(list_data)

#提取分子质量me_mo_weight

me_mo_weight=Get_me_mo_weight(list_data)

#商标名数据库

list_trademarks=Get_txt_contents(trademark_filename)

#提取商标名

me_trademark=Get_me_trademark(list_data)

#赞助商数据库

list_sponsors=Get_txt_contents(sponsor_filename)

#提取赞助商，新公司则找不到

me_sponsor=Get_me_sponsor(list_data)

#提取CAS

me_CAS=Get_CAS(list_data)

#提取WHO

me_WHO=Get_WHO(list_data)

#提取UNII

me_UNII=Get_UNII(list_data)

#获取me_down

me_down=Get_me_down(list_data)

#me_bianma数据默认为空

me_bianma=""

#me_ylbm数据默认为空

me_ylbm=""

python风控评分卡建模和风控常识

https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

美国在研新药_读取单个PDF的更多相关文章

rsyslog 读取单个文件测试
rsyslog 测试(rsyslog 必须yum 安装uat-web02:/root# rpm -qa | grep rsyslog rsyslog-8.21.0-1.el6.x86_64) //读取 ...
python读取单个文件操作
python读取单个文件,参考<笨方法学python>的第15节. 运行方式是采用:python python文件名要读取的文件名代码中 script, filename = argv ...
Python打印到屏幕_读取键盘输入
Python打印到屏幕_读取键盘输入: print( ): 打印输出括号中的值 print("hello") # hello strs = 'hello' print(" ...
单个pdf提取测试
# -*- coding: utf-8 -*- """ Created on Wed Feb 3 09:32:22 2016 pdf单个文件提取测试 @author: A ...
java读取txt/pdf/xls/xlsx/doc/docx/ppt/pptx
环境准备txt利用common-iopdf利用pdfbox剩下的用POI关于POI,读取xls没啥特别的,主要是读取doc和ppt,需要下载poi源代码,然后将poi-src-3.7-20101029 ...
day11_单元测试_读取yaml文件中的用例,自动获取多个yaml文件内容执行生成报告
一.使用.yaml格式的文件直接可以存放字典类型数据,如下图,其中如果有-下一行有缩进代表这是个list,截图中是整体是一个list,其中有两部分,第二部分又包含另外一个list 二.单元测试:开发自 ...
python文件_读取
1.文件的读取和显示方法1: f=open(r'G:\2.txt') print f.read() f.close() 方法2: try: t=open(r'G:\2.txt') print t.r ...
php_常用操作_读取文件_数据库操作
作为php新手 ,把经常用到的phpcode,做个备份 1: 文件处理 //读取配置启动是指定文件 $filepath=$argv[1]; if(null==$filepath){ echo&quo ...
js_ajax模拟form表单提交_多文件上传_支持单个删除
需求场景: 用一个input type="file"按钮上传多张图片,可多次上传,可单独删除,最后使用ajax模拟form表单提交功能提交到指定方法中: 问题:由于只有一个file ...

随机推荐

Socket--Android王国的外交发言人
Socket:原意"插座",在Java语言中为"套接字" 用于描述IP地址和端口号,是通信链的句柄,我们可以通过它向网络发送请求或者应答网络请求; 它是支持TC ...
Java中堆内存和栈内存详解2
Java中堆内存和栈内存详解 Java把内存分成两种,一种叫做栈内存,一种叫做堆内存在函数中定义的一些基本类型的变量和对象的引用变量都是在函数的栈内存中分配.当在一段代码块中定义一个变量时,ja ...
高级数据过滤（like）
单字符过滤 '_' select * from T_Employee where FName like '_erry' 多字符过滤 '%' select * from T_Employee wher ...
[Hadoop in Action] 第1章 Hadoop简介
编写可扩展.分布式的数据密集型程序和基础知识理解Hadoop和MapReduce 编写和运行一个基本的MapReduce程序 1.什么是Hadoop Hadoop是一个开源的框架,可编写和运 ...
文本处理三剑客之sed命令
第十八章.文本处理三剑客之sed命令目录 sed介绍 sed命令常用选项 sed常用编辑命令 sed使用示例 sed高级语法 18.1.sed简介 sed全名stream editor,流编辑器,s ...
APUE学习之多线程编程（三）：线程属性、同步属性
一.线程属性可以使用pthread_attr_t结构修改线程默认属性,并这些属性和创建的线程练习起来,可以使用pthread_att_init函数初始化pthread_attr_t结构,调 ...
[OFC]Mellanox发布首个200Gb/s硅光子设备
[OFC]Mellanox发布首个200Gb/s硅光子设备讯石光通讯网发布时间:2016/4/6 8:18:20 编者:iccsz 点击143次摘要:Mellanox日前在O ...
异步方法的意义何在，Async和await以及Task的爱恨情仇，还有多线程那一家子。
前两天刚感受了下泛型接口的in和out,昨天就开始感受神奇的异步方法Async/await,当然顺路也看了眼多线程那几个.其实多线程异步相关的类单个用法和理解都不算困难,但是异步方法Async/awa ...
PAT 1042. 字符统计(20)
请编写程序,找出一段给定文字中出现最频繁的那个英文字母. 输入格式: 输入在一行中给出一个长度不超过1000的字符串.字符串由ASCII码表中任意可见字符及空格组成,至少包含1个英文字母,以回车结束( ...
shiro-简介
简介: Apache Shiro 是Java的一个安全(权限)框架. Shiro可以非常容易的开发出足够好的应用,其不仅可以用在JavaSE环境,也可以用在JavaEE环境. Shiro可以完成:认证 ...

美国在研新药_读取单个PDF

sklearn实战-乳腺癌细胞数据挖掘（博主亲自录制视频）

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

python风控评分卡建模和风控常识

美国在研新药_读取单个PDF的更多相关文章

随机推荐

热门专题