日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

用瀏覽器訪問網站時,頁面各不相同,你有沒有想過它為何會呈現這個樣子呢?本節中,我們就來了解一下網頁的組成、結構和節點等內容。

網頁的組成

網頁可以分為三大部分 —— html、css 和 JAVAScript。如果把網頁比作一個人的話,HTML 相當于骨架,JavaScript 相當于肌肉,CSS 相當于皮膚,三者結合起來才能形成一個完善的網頁。下面我們分別來介紹一下這三部分的功能。

(1)HTML

HTML,其英文叫做 HyperText Markup Language,中文翻譯叫做超文本標記語言,但我們通常不會用中文翻譯來稱呼它,一般就叫 HTML。

HTML 是用來描述網頁的一種語言,網頁包括文字、按鈕、圖片和視頻等各種復雜的元素,其基礎架構就是 HTML。不同類型的元素通過不同類型的標簽來表示,如圖片用 img 標簽表示,視頻用 video 標簽表示,段落用 p 標簽表示,它們之間的布局又常通過布局標簽 div 嵌套組合而成,各種標簽通過不同的排列和嵌套才形成了網頁的框架。

那 HTML 長什么樣子呢?我們可以隨意打開一個網站,比如淘寶 https://www.taobao.com,然后右鍵菜單點擊“檢查元素”或者按 F12 快捷鍵,即可打開瀏覽器開發者工具,切換到 Elements 面板,這時候就可以看到這里呈現的就是淘寶網對應的 HTML,它包含了一系列標簽,瀏覽器解析這些標簽后,便會在網頁中渲染成一個個的節點,這便形成了我們平常看到的網頁。比如這里可以看到一個輸入框就對應一個 input 標簽,可以用于輸入文字。

 

不同的標簽對應著不同的功能,這些標簽定義的節點相互嵌套和組合形成了復雜的層次關系,就形成了網頁的架構。

(2)CSS

HTML 定義了網頁的結構,但是只有 HTML 頁面的布局并不美觀,可能只是簡單的節點元素的排列。為了讓網頁看起來更好看一些,這里借助了 CSS。

CSS,全稱叫作 Cascading Style Sheets,即層疊樣式表。“層疊” 是指當在 HTML 中引用了數個樣式文件,并且樣式發生沖突時,瀏覽器能依據層疊順序處理。“樣式” 指網頁中文字大小、顏色、元素間距、排列等格式。CSS 是目前唯一的網頁頁面排版樣式標準,有了它的幫助,頁面才會變得更為美觀。

在上圖中,Styles 面板呈現的就是一系列 CSS 樣式,比如摘抄一段 CSS,內容如下:

#head_wrApper.s-ps-islite .s-p-top {
  position: absolute;
  bottom: 40px;
  width: 100%;
  height: 181px;
}

這就是一個 CSS 樣式。大括號前面是一個 CSS 選擇器。此選擇器的意思是首先選中 id 為 head_wrapper 且 class 為 s-ps-islite 的節點,然后再選中其內部的 class 為 s-p-top 的節點。大括號內部寫的就是一條條樣式規則,例如 position 指定了這個節點的布局方式為絕對布局,bottom 指定節點的下邊距為 40 像素,width 指定了寬度為 100%,表示占滿父節點,height 則指定了節點的高度。也就是說,我們將位置、寬度、高度等樣式配置統一寫成這樣的形式,然后用大括號括起來,接著在開頭再加上 CSS 選擇器,這就代表這個樣式對 CSS 選擇器選中的節點生效,節點就會根據此樣式來展示了。

在網頁中,一般會統一定義整個網頁的樣式規則,并寫入 CSS 文件中(其后綴為 css)。在 HTML 中,只需要用 link 標簽即可引入寫好的 CSS 文件,這樣整個頁面就會變得美觀、優雅。

(3)JavaScript

JavaScript,簡稱 JS,是一種腳本語言。HTML 和 CSS 配合使用,提供給用戶的只是一種靜態信息,缺乏交互性。我們在網頁里可能會看到一些交互和動畫效果,如下載進度條、提示框、輪播圖等,這通常就是 JavaScript 的功勞。它的出現使得用戶與信息之間不只是一種瀏覽與顯示的關系,而是實現了一種實時、動態、交互的頁面功能。

JavaScript 通常也是以單獨的文件形式加載的,后綴為 js,在 HTML 中通過 script 標簽即可引入,例如:

<script src="jquery-2.1.0.js"></script>

綜上所述,HTML 定義了網頁的內容和結構,CSS 描述了網頁的樣式,JavaScript 定義了網頁的行為。

2. 網頁的結構

我們首先用例子來感受一下 HTML 的基本結構。新建一個文本文件,名稱叫做 test.html,內容如下:

<!DOCTYPE html>
<html>
  <head>
    <meta charset="UTF-8" />
    <title>This is a Demo</title>
  </head>
  <body>
    <div id="container">
      <div class="wrapper">
        <h2 class="title">Hello World</h2>
        <p class="text">Hello, this is a paragraph.</p>
      </div>
    </div>
  </body>
</html>

這就是一個最簡單的 HTML 實例。開頭用 DOCTYPE 定義了文檔類型,其次最外層是 html 標簽,最后還有對應的結束標簽來表示閉合,其內部是 head 標簽和 body 標簽,分別代表網頁頭和網頁體,它們也需要結束標簽。head 標簽內定義了一些頁面的配置和引用,如:

<meta charset="UTF-8" />

它指定了網頁的編碼為 UTF-8。

title 標簽則定義了網頁的標題,會顯示在網頁的選項卡中,不會顯示在正文中。body 標簽內則是在網頁正文中顯示的內容。div 標簽定義了網頁中的區塊,它的 id 是 container,這是一個非常常用的屬性,且 id 的內容在網頁中是唯一的,我們可以通過它來獲取這個區塊。然后在此區塊內又有一個 div 標簽,它的 class 為 wrapper,這也是一個非常常用的屬性,經常與 CSS 配合使用來設定樣式。然后此區塊內部又有一個 h2 標簽,這代表一個二級標題。另外,還有一個 p 標簽,這代表一個段落。在這兩者中直接寫入相應的內容即可在網頁中呈現出來,它們也有各自的 class 屬性。

將代碼保存后,雙擊該文件在瀏覽器中打開,可以看到如圖所示的內容。

 

可以看到,選項卡上顯示了 This is a Demo 字樣,這是我們在 head 中的 title 里定義的文字。而網頁正文是 body 標簽內部定義的各個元素生成的,可以看到這里顯示了二級標題和段落。

這個實例便是網頁的一般結構。一個網頁的標準形式是 html 標簽內嵌套 head 和 body 標簽,head 內定義網頁的配置和引用,body 內定義網頁的正文。

3 節點樹及節點間的關系

在 HTML 中,所有標簽定義的內容都是節點,它們構成了一個 HTML 節點樹,也稱之為 HTML DOM 樹。

我們先看下什么是 DOM。DOM 是 W3C(萬維網聯盟)的標準,其英文全稱 Document Object Model,即文檔對象模型。它定義了訪問 HTML 和 XML 文檔的標準。根據 W3C 的 HTML DOM 標準,HTML 文檔中的所有內容都是節點。

  • 整個網站文檔是一個文檔節點。
  • 每個 html 標簽對應一個根元素節點,即上例中的 html 標簽,這屬于一個跟元素節點。
  • 節點內的文本是文本節點,比如 a 節點代表一個超鏈接,它內部的文本也被認為是一個文本節點。
  • 每個節點的屬性是屬性節點,比如 a 節點有一個 href 屬性,它就是一個屬性節點。
  • 注釋是注釋節點,在 HTML 中有特殊的語法會被解析為注釋,但其也會對應一個節點。

所以,HTML DOM 將 HTML 文檔視作樹結構,這種結構被稱為節點樹,如圖所示:

 

通過 HTML DOM,樹中的所有節點均可通過 JavaScript 訪問,所有 HTML 節點元素均可被修改,也可以被創建或刪除。

節點樹中的節點彼此擁有層級關系。我們常用父(parent)、子(child)和兄弟(sibling)等術語描述這些關系。父節點擁有子節點,同級的子節點被稱為兄弟節點。

在節點樹中,頂端節點稱為根(root)。除了根節點之外,每個節點都有父節點,同時可擁有任意數量的子節點或兄弟節點。圖展示了節點樹以及節點之間的關系。

 

4. 選擇器

我們知道網頁由一個個節點組成,CSS 選擇器會根據不同的節點設置不同的樣式規則,那么怎樣來定位節點呢?

在 CSS 中,我們使用 CSS 選擇器來定位節點。例如,上例中 div 節點的 id 為 container,那么就可以表示為 #container,其中 # 開頭代表選擇 id,其后緊跟 id 的名稱。另外,如果我們想選擇 class 為 wrapper 的節點,便可以使用.wrapper,這里以點(.)開頭代表選擇 class,其后緊跟 class 的名稱。另外,還有一種選擇方式,那就是根據標簽名篩選,例如想選擇二級標題,直接用 h2 即可。這是最常用的 3 種表示,分別是根據 id、class、標簽名篩選,請牢記它們的寫法。

另外,CSS 選擇器還支持嵌套選擇,各個選擇器之間加上空格分隔開便可以代表嵌套關系,如 #container .wrapper p 則代表先選擇 id 為 container 的節點,然后選中其內部的 class 為 wrapper 的節點,然后再進一步選中其內部的 p 節點。另外,如果不加空格,則代表并列關系,如 div#container .wrapper p.text 代表先選擇 id 為 container 的 div 節點,然后選中其內部的 class 為 wrapper 的節點,再進一步選中其內部的 class 為 text 的 p 節點。這就是 CSS 選擇器,其篩選功能還是非常強大的。

我們可以在瀏覽器中測試 CSS 選擇器的效果,依然還是打開瀏覽器的開發者工具,然后按快捷鍵 Ctrl + F(如果你用的是 mac,則是 Command + F),這時候在左下角便會出現一個搜索框,如圖所示。

 

這時候我們輸入 .title 就是選中了 class 為 title 的節點,這時候該節點就會被選中并在網頁中高亮顯示,如圖所示:

 

輸入 div#container .wrapper p.text 就逐層選中了 id 為 container 中 class 為 wrapper 節點中的 p 節點,如圖所示:

 

另外,CSS 選擇器還有一些其他語法規則,具體如下表所示。

CSS 選擇器的其他語法規則

選 擇 器

例 子

例子描述

.class

.intro

選擇 class="intro" 的所有節點

#id

#firstname

選擇 id="firstname" 的所有節點

*

*

選擇所有節點

element

p

選擇所有 p 節點

element,element

div,p

選擇所有 div 節點和所有 p 節點

element element

div p

選擇 div 節點內部的所有 p 節點

element>element

div>p

選擇父節點為 div 節點的所有 p 節點

element+element

div+p

選擇緊接在 div 節點之后的所有 p 節點

[attribute]

[target]

選擇帶有 target 屬性的所有節點

[attribute=value]

[target=blank]

選擇 target="blank" 的所有節點

[attribute~=value]

[title~=flower]

選擇 title 屬性包含單詞 flower 的所有節點

:link

a:link

選擇所有未被訪問的鏈接

:visited

a:visited

選擇所有已被訪問的鏈接

:active

a:active

選擇活動鏈接

:hover

a:hover

選擇鼠標指針位于其上的鏈接

:focus

input:focus

選擇獲得焦點的 input 節點

:first-letter

p:first-letter

選擇每個 p 節點的首字母

:first-line

p:first-line

選擇每個 p 節點的首行

:first-child

p:first-child

選擇屬于父節點的第一個子節點的所有 p 節點

:before

p:before

在每個 p 節點的內容之前插入內容

:after

p:after

在每個 p 節點的內容之后插入內容

:lang(language)

p:lang

選擇帶有以 it 開頭的 lang 屬性值的所有 p 節點

element1~element2

p~ul

選擇前面有 p 節點的所有 ul 節點

[attribute^=value]

a[src^="https"]

選擇其 src 屬性值以 https 開頭的所有 a 節點

[attribute$=value]

a[src$=".pdf"]

選擇其 src 屬性以 .pdf 結尾的所有 a 節點

[attribute*=value]

a[src*="abc"]

選擇其 src 屬性中包含 abc 子串的所有 a 節點

:first-of-type

p:first-of-type

選擇屬于其父節點的首個 p 節點的所有 p 節點

:last-of-type

p:last-of-type

選擇屬于其父節點的最后一個 p 節點的所有 p 節點

:only-of-type

p:only-of-type

選擇屬于其父節點唯一的 p 節點的所有 p 節點

:only-child

p:only-child

選擇屬于其父節點的唯一子節點的所有 p 節點

:nth-child(n)

p:nth-child

選擇屬于其父節點的第二個子節點的所有 p 節點

:nth-last-child(n)

p:nth-last-child

同上,從最后一個子節點開始計數

:nth-of-type(n)

p:nth-of-type

選擇屬于其父節點第二個 p 節點的所有 p 節點

:nth-last-of-type(n)

p:nth-last-of-type

同上,但是從最后一個子節點開始計數

:last-child

p:last-child

選擇屬于其父節點最后一個子節點的所有 p 節點

:root

:root

選擇文檔的根節點

:empty

p:empty

選擇沒有子節點的所有 p 節點(包括文本節點)

:target

#news:target

選擇當前活動的 #news 節點

:enabled

input:enabled

選擇每個啟用的 input 節點

:disabled

input:disabled

選擇每個禁用的 input 節點

:checked

input:checked

選擇每個被選中的 input 節點

:not(selector)

:not

選擇非 p 節點的所有節點

::selection

::selection

選擇被用戶選取的節點部分

另外,還有一種比較常用的選擇器 XPath,這種選擇方式后面會詳細介紹。

5. 總結

本節介紹了網頁的結構和節點間的關系,了解了這些內容,我們才有更加清晰的思路去解析和提取網頁內容。

本節參考來源:

  • 文檔 - HTML - MDN Web Docs:https://developer.mozilla.org/en-US/docs/Web/HTML
  • 文檔 - JavaScript - MDN Web Docs:https://developer.mozilla.org/en-US/docs/Web/JavaScript
  • 文檔 - HTML DOM 節點 - W3School:http://www.w3school.com.cn/htmldom/dom_nodes.asp
  • 文檔 - HTML - 維基百科:https://en.wikipedia.org/wiki/HTML
  • 文檔 - CSS Selector - W3School:https://www.w3schools.com/cssref/css_selectors.asp

分享到:
標簽:網頁
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定