本文仅做理性上的愉悦，无实际用途。

scanf实际的调用

我们直接使用的scanf其实是这样写的

int __cdecl scanf (

        const char *format,

        ...

        )

{

        va_list arglist;

        va_start(arglist, format);

        return vscanf_fn(_input_l, format, NULL, arglist);

}

我们可以看到，他其实是调用了这三个函数： va_list va_start vscanf_fn

我们跳转到vscanf_fn的实现

int __cdecl vscanf_fn (

        INPUTFN inputfn,

        const char *format,

        _locale_t plocinfo,

        va_list arglist

        )

/*

 * stdin 'SCAN', 'F'ormatted

 */

{

    int retval = 0;

    _VALIDATE_RETURN( (format != NULL), EINVAL, EOF);

    _lock_str2(0, stdin);

    __try {

        retval = (inputfn(stdin, format, plocinfo, arglist));

    }

    __finally {

        _unlock_str2(0, stdin);

    }

    return(retval);

}

我们发现，vscanf_fn实际上是使用了inputfn这个函数。我们进一步跟进,找到了input.c这个文件

/***

*int _input(stream, format, arglist), static int input(format, arglist)

*

*Purpose:

*   get input items (data items or literal matches) from the input stream

*   and assign them if appropriate to the items thru the arglist. this

*   function is intended for internal library use only, not for the user

*

*   The _input entry point is for the normal scanf() functions

*   The input entry point is used when compiling for _cscanf() [CPRFLAF

*   defined] and is a static function called only by _cscanf() -- reads from

*   console.

*

*   This code also defines _input_s, which works differently for %c, %s & %[.

*   For these, _input_s first picks up the next argument from the variable

*   argument list & uses it as the maximum size of the character array pointed

*   to by the next argument in the list.

*

*Entry:

*   FILE *stream - file to read from

*   char *format - format string to determine the data to read

*   arglist - list of pointer to data items

*

*Exit:

*   returns number of items assigned and fills in data items

*   returns EOF if error or EOF found on stream before 1st data item matched

*

*Exceptions:

*

*******************************************************************************/

有几个关键函数：

static _TINT __cdecl _inc(FILE* fileptr)

{

    return (_gettc_nolock(fileptr));

}

_inc的功能是调出缓冲区第一个字符

static void __cdecl _un_inc(_TINT chr, FILE* fileptr)

{

    if (_TEOF != chr) {

        _ungettc_nolock(chr,fileptr);

    }

}

_un_inc函数，将刚才_inc调出的函数重新放进缓冲区

static _TINT __cdecl _whiteout(int* counter, FILE* fileptr)

{

    _TINT ch;

    do

    {

        ++*counter;

        ch = _inc(fileptr);

        if (ch == _TEOF)

        {

            break;

        }

    }

    while(_istspace((_TUCHAR)ch));

    return ch;

}

_whiteout函数，将从缓冲区开头开始的所有连续空白字符调出

最后一步检查缓冲区，如果缓冲区可读字符为0，那么清空缓冲区

format的解析

while (*format) {

        if (_istspace((_TUCHAR)*format)) {

            UN_INC(EAT_WHITE()); /* put first non-space char back */

            do {

                tch = *++format;

            } while (_istspace((_TUCHAR)tch));

            continue;

     ………………

这里的UN_INC(EAT_WHITE())，是把当初EAT_WHITE读出的第一个非空白字符再放入缓冲区。

上面代码完成对键盘缓冲区中空白符的清理，直到正常读取第一个字符。

当读入%号，进行处理：

if (_T('%') == *format && _T('%') != *(format + 1))

解析完格式后，开始真正的实现，我们以%d做例子：

if (_T('^') == *scanptr) {

                            ++scanptr;

                            --reject; /* set reject to 255 */

                        }

                        /* Allocate "table" on first %[] spec */

#if ALLOC_TABLE

                        if (table == NULL) {

                            table = (char*)_malloc_crt(TABLESIZE);

                            if ( table == NULL)

                                goto error_return;

                            malloc_flag = 1;

                        }zuolizi

#endif  /* ALLOC_TABLE */

                        memset(table, 0, TABLESIZE);

                        if (LEFT_BRACKET == comchr)

                            if (_T(']') == *scanptr) {

                                prevchar = _T(']');

                                ++scanptr;

                                table[ _T(']') >> 3] = 1 << (_T(']') & 7);

                            }

                        while (_T(']') != *scanptr) {

                            rngch = *scanptr++;

                            if (_T('-') != rngch ||

                                 !prevchar ||           /* first char */

                                 _T(']') == *scanptr) /* last char */

                                table[(prevchar = rngch) >> 3] |= 1 << (rngch & 7);

                            else {  /* handle a-z type set */

                                rngch = *scanptr++; /* get end of range */

                                if (prevchar < rngch)  /* %[a-z] */

                                    last = rngch;

                                else {              /* %[z-a] */

                                    last = prevchar;

                                    prevchar = rngch;

                                }

                                /* last could be 0xFF, so we handle it at the end of the for loop */

                                for (rngch = prevchar; rngch < last; ++rngch)

                                {

                                    table[rngch >> 3] |= 1 << (rngch & 7);

                                }

                                table[last >> 3] |= 1 << (last & 7);

                                prevchar = 0;

                            }

                        }

reject反转标记，如果出现^ 则reject = FF; 其后方便进行 ^ 进行反转。

对于[ ]字符集，有一个char table[32]来保存256个ascii字符。(此处每个char为8bits,所以有32组可以完全包含256个ascii字符)

微软对table中字符做了这样的处理：

table[rngch >> 3] |= 1 << (rngch & 7);

即：将所读的字符串分到32组中【rngch>>3相当于除以8】，每个table[n]有8bits，每个bit中，出现的字符位会被置为1，未出现则为0，这样就完美囊括了256个ASCII字符。

判断字符是否存在，直接这样处理：

(table[ch >> 3] ^ reject) & (1 << (ch & 7))

在其中有很多判断_ISXDIGIT(ch)的，假若不是阿拉伯数字，则会执行跳出当前%d字符读取,执行1313行的 ++format; /* skip to next char */

%d跳过了\n的读取，继续读取下一个字符。

if (_T('%') == *format && _T('%') != *(format + 1)) {

		……………………

		   ++format;  /* skip to next char */

        } else  /*  ('%' != *format) */

		{

		………………………

		}

在读代码时候读到一个函数 hextodec

static _TINT __cdecl _hextodec ( _TCHAR chr)

{

    return _ISDIGIT(chr) ? chr : (chr & ~(_T('a') - _T('A'))) - _T('A') + 10 + _T('0');

}

将读取的16进制字符 0 - F转成 10进制数，然后scanf就结束了

我们有一个非常简单的scanf的实现(臭不要脸的调用vscanf_fn)

#include<cstdio>

#include<cstdarg>

int my_scanf(char* fmt,...)

{

    int ret=0;

    va_list args;

    va_start(args,fmt);

    vscanf(fmt,args);

    va_end(args);

    return ret;

}

int main()

{

    int a;

    my_scanf("%d",&a);

    printf("%d",a);

    return 0;

}

【文文殿下】浅析scanf源码的更多相关文章

浅析Java源码之ArrayList
面试题经常会问到LinkedList与ArrayList的区别,与其背网上的废话,不如直接撸源码! 文章源码来源于JRE1.8,java.util.ArrayList 既然是浅析,就主要针对该数据结构 ...
浅析Java源码之LinkedList
可以骂人吗???辛辛苦苦写了2个多小时搞到凌晨2点,点击保存草稿退回到了登录页面???登录成功草稿没了???喵喵喵???智障!!气! 很厉害,隔了30分钟,我的登录又失效了,草稿再次回滚,不客气了,* ...
浅析libuv源码-获取精确时间
在Timer模块中有提到,libuv控制着延迟事件的触发,那么必须想办法精确控制时间. 如果是JS,获取当前时间可以直接通过Date.now()得到一个时间戳,然后将两段时间戳相减得到时间差.一般情况 ...
浅析libuv源码-编译启动
面试的间隙回头复习了一下node,感觉node就像一个胶带,把V8和libuv粘在了一起. V8毫无疑问,负责解析执行JavaScript,相当于语言层面的桥梁:而libuv则是负责操作系统底层功能的 ...
浅析Java源码之HttpServlet
纯粹是闲的,在慕课网看了几集的Servlet入门,刚写了1个小demo,就想看看源码,好在也不难主要是介绍一下里面的主要方法,真的没什么内容啊~ 源码来源于apache-tomcat-7.0.52, ...
浅析Java源码之HashMap外传-红黑树Treenode(已鸽)
(这篇文章暂时鸽了,有点理解不能,点进来的小伙伴可以撤了) 刚开始准备在HashMap中直接把红黑树也过了的,结果发现这个类不是一般的麻烦,所以单独开一篇. 由于红黑树之前完全没接触过,所以这篇博客相 ...
浅析Java源码之HashMap
写这篇文章还是下了一定决心的,因为这个源码看的头疼得很. 老规矩,源码来源于JRE1.8,java.util.HashMap,不讨论I/O及序列化相关内容. 该数据结构简介:使用了散列码来进行快速搜索 ...
浅析Java源码之Math.random()
从零自学java消遣一下,看书有点脑阔疼,不如看看源码!(๑╹◡╹)ﾉ""" JS中Math调用的都是本地方法,底层全是用C++写的,所以完全无法观察实现过程,Jav ...
浅析libuv源码-node事件轮询解析(3)
好像博客有观众,那每一篇都画个图吧! 本节简图如下. 上一篇其实啥也没讲,不过node本身就是这么复杂,走流程就要走全套.就像曾经看webpack源码,读了300行代码最后就为了取package.js ...

随机推荐

Rakefile实例教程
一.简介简单的说Rakefile就是使用Ruby语法的makefile, 对应make的工具就是rake. 在Ruby on Rails里面, 不管是数据库的初始化, 内容初始化, 删除, 还是测试 ...
HDU_1022
题目: As the new term comes, the Ignatius Train Station is very busy nowadays. A lot of student want t ...
src/lxml/includes/etree_defs.h:14:31: 致命错误：libxml/xmlversion.h：没有那个文件或目录
fedora21平台下解决办法:yum install libxml-devel ubuntu下可以使用 apt-get intalll xxxx 如果仍然出现,可以尝试安装这两个包libxslt-d ...
MapReduce调优总结与拓展
本文为<hadoop技术内幕:深入解析MapReduce架构设计与实现原理>一书第9章<Hadoop性能调优>的总结. 图1 Hadoop层次结构图从管理员角度进行调优 1. ...
库函数方式文件编程----fopen
使用fopen等文件访问库函数编写应用程序,该应用程序实现文件的复制功能. 1.打开文件---fopen 函数功能:打开文件头文件:#include<stdio.h> 函数原型:FILE ...
2018.09.08 NOIP模拟 division（状压dp）
这么sb的题考场居然写挂了2233. 假设n=∏iaiki" role="presentation" style="position: relative;&qu ...
如何在MAC下安装Myeclipse2015真的很虐心！！！！！！！！！！
最近笔者换了一个新的笔记本,mac pro 因为同学说大公司的web开发都是写在Linux操作系统下的,所以我决定搞一个,但是装软件就是很困难啊!找了大量资料发现都不全,最后,终于搞好了,分享给同样虐 ...
分享一个以前写的基于C#语言操作数据库的小框架
一:前言这个是以前写的操作MySQL数据库的小型框架,如果是中小型项目用起来也是很不错的,里面提供Filter.ModelPart.Relationship等机制实现操作数据库时的SQL语句的拼接和 ...
用eclipse创建maven的webapp项目
来自http://www.cnblogs.com/candle806/p/3439469.html和http://blog.csdn.net/chuyuqing/article/details/288 ...
LDA汇总
1.Blei的LDA代码(C):http://www.cs.princeton.edu/~blei/lda-c/index.html2.D.Bei的主页:http://www.cs.princeton ...

【文文殿下】浅析scanf源码

本文仅做理性上的愉悦，无实际用途。

scanf实际的调用

我们直接使用的scanf其实是这样写的

我们可以看到，他其实是调用了这三个函数： va_list va_start vscanf_fn

我们跳转到vscanf_fn的实现

我们发现，vscanf_fn实际上是使用了inputfn这个函数。我们进一步跟进,找到了input.c这个文件

有几个关键函数：

_inc的功能是调出缓冲区第一个字符

_un_inc函数，将刚才_inc调出的函数重新放进缓冲区

_whiteout函数，将从缓冲区开头开始的所有连续空白字符调出

最后一步检查缓冲区，如果缓冲区可读字符为0，那么清空缓冲区

format的解析

这里的UN_INC(EAT_WHITE())，是把当初EAT_WHITE读出的第一个非空白字符再放入缓冲区。

上面代码完成对键盘缓冲区中空白符的清理，直到正常读取第一个字符。

当读入%号，进行处理：

解析完格式后，开始真正的实现，我们以%d做例子：

reject反转标记，如果出现^ 则reject = FF; 其后方便进行 ^ 进行反转。

对于[ ]字符集，有一个char table[32]来保存256个ascii字符。(此处每个char为8bits,所以有32组可以完全包含256个ascii字符)

微软对table中字符做了这样的处理：

即：将所读的字符串分到32组中【rngch>>3相当于除以8】，每个table[n]有8bits，每个bit中，出现的字符位会被置为1，未出现则为0，这样就完美囊括了256个ASCII字符。

判断字符是否存在，直接这样处理：

在其中有很多判断_ISXDIGIT(ch)的，假若不是阿拉伯数字，则会执行跳出当前%d字符读取,执行1313行的 ++format; /* skip to next char */

%d跳过了\n的读取，继续读取下一个字符。

在读代码时候读到一个函数 hextodec

将读取的16进制字符 0 - F转成 10进制数，然后scanf就结束了

我们有一个非常简单的scanf的实现(臭不要脸的调用vscanf_fn)

【文文殿下】浅析scanf源码的更多相关文章

随机推荐

热门专题