ເນື້ອໃນ
ວຽກງານການໂອນຂໍ້ມູນຈາກສະເປຣດຊີດໃນໄຟລ໌ PDF ກັບແຜ່ນ Microsoft Excel ແມ່ນສະເຫມີໄປ "ມ່ວນຊື່ນ". ໂດຍສະເພາະຖ້າທ່ານບໍ່ມີຊອບແວການຮັບຮູ້ລາຄາແພງເຊັ່ນ FineReader ຫຼືບາງສິ່ງບາງຢ່າງເຊັ່ນນັ້ນ. ການຄັດລອກໂດຍກົງມັກຈະບໍ່ນໍາໄປສູ່ສິ່ງທີ່ດີ, ເພາະວ່າ. ຫຼັງຈາກການວາງຂໍ້ມູນທີ່ຄັດລອກໄປໃນແຜ່ນ, ພວກເຂົາເຈົ້າຫຼາຍທີ່ສຸດຈະ "ຕິດກັນ" ເປັນຖັນ. ສະນັ້ນເຂົາເຈົ້າຈະຕ້ອງແຍກອອກຢ່າງເຄັ່ງຄັດໂດຍໃຊ້ເຄື່ອງມື ຂໍ້ຄວາມຕາມຖັນ ຈາກແຖບ ຂໍ້ມູນ (ຂໍ້ມູນ — ຂໍ້ຄວາມຫາຖັນ).
ແລະແນ່ນອນ, ການຄັດລອກແມ່ນເປັນໄປໄດ້ພຽງແຕ່ສໍາລັບໄຟລ໌ PDF ເຫຼົ່ານັ້ນທີ່ມີຊັ້ນຂໍ້ຄວາມ, ເຊັ່ນວ່າເອກະສານທີ່ຫາກໍ່ຖືກສະແກນຈາກເຈ້ຍໄປຫາ PDF, ນີ້ຈະບໍ່ເຮັດວຽກຢູ່ໃນຫຼັກການ.
ແຕ່ມັນບໍ່ເສົ້າຫຼາຍ, ແທ້ໆ 🙂
ຖ້າທ່ານມີ Office 2013 ຫຼື 2016, ຫຼັງຈາກນັ້ນໃນສອງສາມນາທີ, ໂດຍບໍ່ມີໂຄງການເພີ່ມເຕີມ, ມັນກໍ່ເປັນໄປໄດ້ທີ່ຈະໂອນຂໍ້ມູນຈາກ PDF ກັບ Microsoft Excel. ແລະ Word ແລະ Power Query ຈະຊ່ວຍພວກເຮົາໃນເລື່ອງນີ້.
ຕົວຢ່າງ, ໃຫ້ເອົາບົດລາຍງານ PDF ນີ້ດ້ວຍຂໍ້ຄວາມ, ສູດແລະຕາຕະລາງຈາກເວັບໄຊທ໌ຂອງຄະນະກໍາມະການເສດຖະກິດເອີຣົບ:
... ແລະພະຍາຍາມດຶງອອກຈາກມັນໃນ Excel, ເວົ້າຕາຕະລາງທໍາອິດ:
ໄປກັນເລີຍ!
ຂັ້ນຕອນທີ 1. ເປີດ PDF ໃນ Word
ດ້ວຍເຫດຜົນບາງຢ່າງ, ສອງສາມຄົນຮູ້, ແຕ່ຕັ້ງແຕ່ປີ 2013 Microsoft Word ໄດ້ຮຽນຮູ້ທີ່ຈະເປີດແລະຮັບຮູ້ໄຟລ໌ PDF (ແມ້ແຕ່ເຄື່ອງສະແກນ, ນັ້ນແມ່ນ, ໂດຍບໍ່ມີຊັ້ນຂໍ້ຄວາມ!). ນີ້ແມ່ນເຮັດໃນແບບມາດຕະຖານຢ່າງສົມບູນ: ເປີດ Word, ຄລິກ ໄຟລ໌ - ເປີດ (ໄຟລ໌ - ເປີດ) ແລະລະບຸຮູບແບບ PDF ໃນບັນຊີລາຍຊື່ເລື່ອນລົງໃນແຈລຸ່ມຂວາຂອງປ່ອງຢ້ຽມ.
ຫຼັງຈາກນັ້ນ, ເລືອກໄຟລ໌ PDF ທີ່ພວກເຮົາຕ້ອງການແລະກົດ ເປີດ (ເປີດ). Word ບອກພວກເຮົາວ່າມັນຈະດໍາເນີນການ OCR ໃນເອກະສານນີ້ເພື່ອສົ່ງຂໍ້ຄວາມ:
ພວກເຮົາຕົກລົງເຫັນດີແລະໃນສອງສາມວິນາທີພວກເຮົາຈະເຫັນ PDF ຂອງພວກເຮົາເປີດສໍາລັບການດັດແກ້ຢູ່ໃນ Word ແລ້ວ:
ແນ່ນອນ, ການອອກແບບ, ຮູບແບບ, ຕົວອັກສອນ, ສ່ວນຫົວແລະສ່ວນທ້າຍ, ແລະອື່ນໆ. ບາງສ່ວນຈະບິນອອກຈາກເອກະສານ, ແຕ່ນີ້ບໍ່ສໍາຄັນສໍາລັບພວກເຮົາ - ພວກເຮົາຕ້ອງການຂໍ້ມູນຈາກຕາຕະລາງເທົ່ານັ້ນ. ໃນຫຼັກການ, ໃນຂັ້ນຕອນນີ້, ມັນເປັນການລໍ້ລວງແລ້ວທີ່ຈະຄັດລອກຕາຕະລາງຈາກເອກະສານທີ່ຮັບຮູ້ເຂົ້າໄປໃນ Word ແລະພຽງແຕ່ວາງມັນເຂົ້າໄປໃນ Excel. ບາງຄັ້ງມັນເຮັດວຽກ, ແຕ່ເລື້ອຍໆມັນນໍາໄປສູ່ການບິດເບືອນຂໍ້ມູນທຸກປະເພດ - ຕົວຢ່າງ, ຕົວເລກສາມາດປ່ຽນເປັນວັນທີຫຼືຍັງຄົງເປັນຂໍ້ຄວາມ, ເຊັ່ນດຽວກັບກໍລະນີຂອງພວກເຮົາ, ເພາະວ່າ. PDF ໃຊ້ຕົວແຍກທີ່ບໍ່ແມ່ນຕົວແຍກ:
ສະນັ້ນບໍ່ໃຫ້ຕັດມຸມ, ແຕ່ເຮັດໃຫ້ທຸກສິ່ງທຸກຢ່າງສັບສົນຫຼາຍ, ແຕ່ຖືກຕ້ອງ.
ຂັ້ນຕອນທີ 2: ບັນທຶກເອກະສານເປັນຫນ້າເວັບ
ເພື່ອໂຫລດຂໍ້ມູນທີ່ໄດ້ຮັບເຂົ້າໄປໃນ Excel (ຜ່ານ Power Query), ເອກະສານຂອງພວກເຮົາໃນ Word ຕ້ອງໄດ້ຮັບການບັນທຶກໄວ້ໃນຮູບແບບຫນ້າເວັບ - ຮູບແບບນີ້ແມ່ນ, ໃນກໍລະນີນີ້, ປະເພດຂອງຕົວຫານທົ່ວໄປລະຫວ່າງ Word ແລະ Excel.
ເພື່ອເຮັດສິ່ງນີ້, ໄປທີ່ເມນູ ໄຟລ໌ - ບັນທຶກເປັນ (File — ບັນທຶກເປັນ) ຫຼືກົດປຸ່ມ F12 ໃນແປ້ນພິມແລະໃນປ່ອງຢ້ຽມທີ່ເປີດ, ເລືອກປະເພດໄຟລ໌ ຫນ້າເວັບຢູ່ໃນໄຟລ໌ດຽວ (ໜ້າເວັບ — ໄຟລ໌ດຽວ):
ຫຼັງຈາກບັນທຶກ, ທ່ານຄວນໄດ້ຮັບໄຟລ໌ທີ່ມີນາມສະກຸນ mhtml (ຖ້າທ່ານເຫັນການຂະຫຍາຍໄຟລ໌ໃນ Explorer).
ຂັ້ນຕອນທີ 3. ການອັບໂຫຼດໄຟລ໌ກັບ Excel ຜ່ານ Power Query
ທ່ານສາມາດເປີດໄຟລ໌ MHTML ທີ່ສ້າງຂຶ້ນໃນ Excel ໂດຍກົງ, ແຕ່ຫຼັງຈາກນັ້ນພວກເຮົາຈະໄດ້ຮັບ, ທໍາອິດ, ເນື້ອໃນທັງຫມົດຂອງ PDF ໃນເວລາດຽວກັນ, ພ້ອມກັບຂໍ້ຄວາມແລະຊໍ່ຂອງຕາຕະລາງທີ່ບໍ່ຈໍາເປັນ, ແລະ, ອັນທີສອງ, ພວກເຮົາຈະສູນເສຍຂໍ້ມູນອີກເທື່ອຫນຶ່ງເນື່ອງຈາກບໍ່ຖືກຕ້ອງ. ຕົວແຍກ. ດັ່ງນັ້ນ, ພວກເຮົາຈະເຮັດການນໍາເຂົ້າເຂົ້າໄປໃນ Excel ຜ່ານ Power Query add-in. ນີ້ແມ່ນ add-on ຟຣີຢ່າງສົມບູນທີ່ທ່ານສາມາດອັບໂຫລດຂໍ້ມູນໄປຍັງ Excel ຈາກເກືອບທຸກແຫຼ່ງ (ໄຟລ໌, ໂຟນເດີ, ຖານຂໍ້ມູນ, ລະບົບ ERP) ແລະຫຼັງຈາກນັ້ນຫັນປ່ຽນຂໍ້ມູນທີ່ໄດ້ຮັບໃນທຸກໆທາງທີ່ເປັນໄປໄດ້, ໃຫ້ມັນມີຮູບຮ່າງທີ່ຕ້ອງການ.
ຖ້າທ່ານມີ Excel 2010-2013, ຫຼັງຈາກນັ້ນທ່ານສາມາດດາວໂຫລດ Power Query ຈາກເວັບໄຊທ໌ຢ່າງເປັນທາງການຂອງ Microsoft - ຫຼັງຈາກການຕິດຕັ້ງທ່ານຈະເຫັນແຖບ. ແບບສອບຖາມພະລັງງານ. ຖ້າທ່ານມີ Excel 2016 ຫຼືໃຫມ່ກວ່າ, ຫຼັງຈາກນັ້ນທ່ານບໍ່ຈໍາເປັນຕ້ອງດາວໂຫລດອັນໃດ - ຫນ້າທີ່ທັງຫມົດແມ່ນສ້າງຢູ່ໃນ Excel ໂດຍຄ່າເລີ່ມຕົ້ນແລະຕັ້ງຢູ່ໃນແຖບ. ຂໍ້ມູນ (ວັນທີ) ໃນກຸ່ມ ດາວນ໌ໂຫລດແລະແປງ (ຮັບ & ຫັນປ່ຽນ).
ດັ່ງນັ້ນພວກເຮົາຈະໄປແຖບ ຂໍ້ມູນ, ຫຼືຢູ່ໃນແຖບ ແບບສອບຖາມພະລັງງານ ແລະເລືອກທີມ ເພື່ອໃຫ້ໄດ້ຮັບຂໍ້ມູນ or ສ້າງຄໍາຖາມ - ຈາກໄຟລ໌ - ຈາກ XML. ເພື່ອເຮັດໃຫ້ເຫັນໄດ້ບໍ່ພຽງແຕ່ໄຟລ໌ XML, ປ່ຽນຕົວກອງໃນລາຍການເລື່ອນລົງໃນມຸມຂວາລຸ່ມຂອງປ່ອງຢ້ຽມເປັນ. ແຟ້ມທັງ ໝົດ (ໄຟລ໌ທັງໝົດ) ແລະລະບຸໄຟລ໌ MHTML ຂອງພວກເຮົາ:
ກະລຸນາສັງເກດວ່າການນໍາເຂົ້າຈະບໍ່ສໍາເລັດສົບຜົນສໍາເລັດ, ເພາະວ່າ. Power Query ຄາດຫວັງວ່າ XML ຈາກພວກເຮົາ, ແຕ່ຕົວຈິງແລ້ວພວກເຮົາມີຮູບແບບ HTML. ດັ່ງນັ້ນ, ໃນປ່ອງຢ້ຽມຕໍ່ໄປທີ່ປາກົດ, ທ່ານຈະຕ້ອງຄລິກຂວາໃສ່ໄຟລ໌ທີ່ບໍ່ສາມາດເຂົ້າໃຈໄດ້ກັບ Power Query ແລະລະບຸຮູບແບບຂອງມັນ:
ຫຼັງຈາກນັ້ນ, ໄຟລ໌ຈະຖືກຮັບຮູ້ຢ່າງຖືກຕ້ອງແລະພວກເຮົາຈະເຫັນບັນຊີລາຍຊື່ຂອງຕາຕະລາງທັງຫມົດທີ່ມັນມີ:
ທ່ານສາມາດເບິ່ງເນື້ອໃນຂອງຕາຕະລາງໂດຍການຄລິກໃສ່ປຸ່ມຫນູຊ້າຍໃນພື້ນຖານສີຂາວ (ບໍ່ແມ່ນຢູ່ໃນຄໍາວ່າຕາຕະລາງ!) ຂອງຈຸລັງໃນຖັນຂໍ້ມູນ.
ເມື່ອຕາຕະລາງທີ່ຕ້ອງການຖືກກໍານົດ, ໃຫ້ຄລິກໃສ່ຄໍາສີຂຽວ ຕາຕະລາງ – ແລະທ່ານ “ຫຼຸດລົງ” ເຂົ້າໄປໃນເນື້ອໃນຂອງຕົນ:
ມັນຍັງຄົງເຮັດສອງສາມຂັ້ນຕອນງ່າຍໆເພື່ອ "comb" ເນື້ອໃນຂອງມັນ, ຄື:
- ລຶບຖັນທີ່ບໍ່ຈຳເປັນອອກ (ຄລິກຂວາໃສ່ຫົວຖັນ – ເອົາ)
- ແທນທີ່ຈຸດດ້ວຍເຄື່ອງໝາຍຈຸດ (ເລືອກຖັນ, ຄລິກຂວາ – ການທົດແທນຄ່າ)
- ເອົາເຄື່ອງຫມາຍເທົ່າທຽມກັນໃນຫົວ (ເລືອກຖັນ, ຄລິກຂວາ - ການທົດແທນຄ່າ)
- ເອົາເສັ້ນເທິງ (ຫນ້າທໍາອິດ – ລຶບສາຍ – ລຶບແຖວເທິງ)
- ເອົາເສັ້ນເປົ່າ (ຫນ້າທໍາອິດ – ລຶບສາຍ – ລຶບເສັ້ນເປົ່າ)
- ຍົກແຖວທຳອິດໃສ່ຫົວຕາຕະລາງ (ຫນ້າທໍາອິດ - ໃຊ້ແຖວທໍາອິດເປັນຫົວຂໍ້)
- ກັ່ນຕອງຂໍ້ມູນທີ່ບໍ່ຈໍາເປັນອອກໂດຍໃຊ້ຕົວກອງ
ເມື່ອຕາຕະລາງຖືກນໍາມາສູ່ຮູບແບບປົກກະຕິຂອງມັນ, ມັນສາມາດຖືກ unloaded ໃສ່ແຜ່ນດ້ວຍຄໍາສັ່ງ ປິດແລະດາວໂຫລດ (ປິດ & ໂຫຼດ) on ການຕົ້ນຕໍ ແຖບ. ແລະພວກເຮົາຈະໄດ້ຮັບຄວາມງາມດັ່ງກ່າວທີ່ພວກເຮົາສາມາດເຮັດວຽກໄດ້ແລ້ວ:
- ການປ່ຽນຖັນເປັນຕາຕະລາງດ້ວຍການສອບຖາມພະລັງງານ
- ການແຍກຂໍ້ຄວາມຫນຽວເປັນຖັນ