编辑: 无理的喜欢 | 2018-09-21 |
3 3.2. (多种语言实现)模拟登陆gogole
3 4. 如何抓取动态网页并提取特定内容
4 4.1. 抓取动态网页示例:网易163博客的心情随笔FeelingCard
4 5. 抓取静态或动态网页和模拟登陆的注意事项和总结
5 参考书目
6 v 前言 1. 本文目的 本文目的在于,如何从无到有的,了解抓取网站,模拟登陆,抓取动态网页方面的逻辑和具体实现.
1 第1章网站抓取,模拟登陆,抓取动态 网页的通用逻辑 相关旧帖 如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站
1 【整理】各种浏览器中的开发人员工具Developer Tools:IE9的F12,Chrome的Ctrl +Shift+J,Firefox的Firebug
2 【总结】浏览器中的开发人员工具(IE9的F12和Chrome的Ctrl+Shift+I)-网页分析的利 器3【整理】关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项
4 【教程】如何利用IE9的F12去分析网站登陆过程中的复杂的(参数,cookie等)值(的来 源)
5 【整理】关于http(GET或POST)请求中的url地址的编码(encode)和解码(decode)
6 【整理】关于HTML网页源码的字符编码(charset)格式 (GB2312,GBK,UTF-8,ISO8859-1等)的解释
7 【整理】网页抓取,模拟登陆,抓取动态网页内容等过程中,所涉及的Headers信息,Cookie信息,POST数据的处理逻辑
8 【整理】关于用正则表达式处理html代码方面的建议
9 1 http://www.crifan.com/ how_to_use_some_language_python_csharp_to_implement_crawl_website_extract_dynamic_webpage_content_emulate_login_website
2 http://www.crifan.com/summary_webbrowser_developer_tool_ie9_f12_chrome_ctrl_shift_j_firefox_firebug
3 http://www.crifan.com/browser_developer_tool_chrome_vs_ie9
4 http://www.crifan.com/summary_about_flow_process_of_fetch_webpage_simulate_login_website_and_some_notice
5 http://www.crifan.com/use_ie9_f12_to_analysis_the_root_source_of_values_of_parameter_cookie
6 http://www.crifan.com/summary_url_encode_and_decode_during_http_get_post_request
7 http://www.crifan.com/summary_explain_what_is_html_charset_and_common_value_of_gb2312_gbk_utf_8_iso8859_1
8 http://www.crifan.com/website_crawl_process_related_headers_cookies_post_data_handle_logic
9 http://www.crifan.com/ for_process_html_with_many_tag_recommend_use_third_lib_while_simple_html_use_regular_expression
2 第2章如何抓取静态网页并提取特定内 容 相关旧帖 【教程】抓取网并提取网页中所需要的信息 之Python版1【教程】抓取网并提取网页中所需要的信息 之C#版21http://www.crifan.com/crawl_website_html_and_extract_info_using_python/
2 http://www.crifan.com/crawl_website_html_and_extract_info_using_csharp
3 第3章如何模拟登陆网站 下面,给出足够多的例子: 3.1. (多种语言实现)模拟登陆百度 先去用工具分析逻辑: 【教程】手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程
1 再去用代码实现,此处,目前已经实现了: ? C#版 【教程】模拟登陆网站 之C#版(内含两种版本的完整的可运行的代码)
2 ? Python版 【教程】模拟登陆网站 之Python版(内含两种版本的完整的可运行的代码)
3 ? Java版 【教程】模拟登陆百度之Java代码版
4 ? Go语言版 【记录】用go语言实现模拟登陆百度
5 3.2. (多种语言实现)模拟登陆gogole 另外,也弄了个,模拟登陆google: 【记录】模拟登陆google
6 1 http://www.crifan.com/use_ie9_f12_to_analysis_the_internal_logical_process_of_login_baidu_main_page_website